Meta lanza el modelo de IA multimodal de código abierto Llama 3.2 para el procesamiento de imágenes y textos.

Meta ha lanzado Llama 3.2, su primer modelo multimodal de IA de código abierto capaz de procesar imágenes y texto. Incluye modelos de visión con 11 mil millones y 90 mil millones de parámetros, y modelos de texto ligero con 1.000 millones y 3.000 millones de parámetros, diseñados para hardware diverso. Llama 3.2 tiene como objetivo mejorar las aplicaciones de IA en áreas como la realidad aumentada y el análisis de documentos, ofreciendo un rendimiento competitivo en tareas de reconocimiento de imágenes contra rivales como OpenAI y Anthropic.

September 25, 2024
10 Artículos