Meta, matriz de Facebook, Instagram y WhatsApp, ha lanzado una nueva generación de su modelo de lenguaje grande (LLM) Llama de código abierto para obtener una porción más grande del mercado de IA generativa al enfrentarse a todos los proveedores de modelos, incluidos OpenAI, Mistral, Anthropic, y xAI de Elon Musk. “Esta próxima generación de Llama demuestra un rendimiento de vanguardia en una amplia gama de puntos de referencia de la industria y ofrece nuevas capacidades, incluido un razonamiento mejorado. Creemos que estos son los mejores modelos de código abierto de su clase, punto”, escribió la compañía en una publicación de blog, y agregó que se había propuesto construir un modelo de código abierto que esté a la par con los modelos propietarios de mejor rendimiento disponibles. en el mercado. Actualmente, Meta está poniendo a disposición los dos primeros modelos (variantes preentrenadas y ajustadas con instrucciones con 8 mil millones y 70 mil millones de parámetros) de su tercera generación de LLM. Normalmente, cualquier proveedor de LLM lanza múltiples variantes de modelos para permitir a las empresas elegir entre latencia y precisión según los casos de uso. Si bien un modelo con más parámetros puede ser relativamente más preciso, el que tiene menos parámetros requiere menos cálculo, tarda menos en responder y, por lo tanto, cuesta menos. Las variantes lanzadas, según Meta, son modelos basados ​​en texto y no admitir cualquier otra forma de datos. La compañía espera lanzar modelos multilingües y multimodales con un contexto más amplio en el futuro mientras intenta mejorar el rendimiento general en capacidades como el razonamiento y las tareas relacionadas con el código. Afirmación de mejor rendimiento que otros modelos Meta ha afirmado que su nueva familia de LLM funciona mejor que la mayoría de los otros LLM, con la excepción de mostrar cómo se desempeña frente a GPT-4, que ahora impulsa ChatGPT y los servicios de análisis y Azure de Microsoft. “Las mejoras en nuestros procedimientos posteriores a la capacitación redujeron sustancialmente las tasas de falso rechazo, mejoraron la alineación y aumentaron la diversidad en las respuestas del modelo. También vimos capacidades muy mejoradas como razonamiento, generación de código e instrucción después de hacer que Llama 3 sea más dirigible”, dijo la compañía en un comunicado. Para comparar Llama 3 con otros modelos, la compañía realizó pruebas en lo que llama puntos de referencia estándar. como MMLU, GPQA, MATH, HumanEval y GSM-8K, y encontró que las variantes obtienen mejores calificaciones que la mayoría de los LLM, como Mistral, Claude Sonnet y GPT 3.5. Mientras que MMLU (Massive Multitask Language Understanding) es un punto de referencia diseñado para medir el conocimiento adquirido durante el entrenamiento previo mediante la evaluación de modelos, GPQA (Graduate-Level Google-Proof Q&A Benchmark) es una prueba para verificar la experiencia de un modelo en la resolución de problemas científicos complejos. GPAQ es un conjunto de datos desafiante de 448 preguntas de opción múltiple escritas por expertos en biología, física y química, y los doctorados en los dominios correspondientes logran solo un 65% de precisión en estas preguntas. GPT-4 obtuvo el puntaje de precisión más alto en la prueba con un 39%, según los datos informados en un artículo publicado en noviembre del año pasado. Por el contrario, la variante de 70 mil millones de parámetros de Llama 3 obtuvo una puntuación de 39,5, seguida por el modelo de parámetros más pequeño que logró una puntuación de 34,2. GeminiPro 1.5, actualmente, tiene la puntuación más alta de 41,5 en el punto de referencia GPQA. El mismo LLM también superó a la variante más grande Llama 3 en la prueba de referencia MATH. Según la compañía, el conjunto de datos utilizado en la evaluación de los puntos de referencia contenía alrededor de 1.800 indicaciones que cubrían 12 casos de uso clave: pedir consejo, lluvia de ideas, clasificación, respuesta a preguntas cerradas, codificación, escritura creativa, extracción, habitar un personaje/persona, abierto. respuesta a preguntas, razonamiento, reescritura y resumen. «Para evitar un sobreajuste accidental de nuestros modelos en este conjunto de evaluación, ni siquiera nuestros propios equipos de modelado tienen acceso a él», dijo la compañía. El sobreajuste es un fenómeno en el aprendizaje automático o entrenamiento de modelos. cuando un modelo funciona bien con los datos de entrenamiento pero no funciona con los datos de prueba. Cada vez que un profesional de datos comienza a entrenar un modelo, la persona debe mantener dos conjuntos de datos separados para el entrenamiento y los datos de prueba para verificar el rendimiento del modelo. El sobreajuste ocurre cuando un modelo termina aprendiendo demasiado bien los datos de entrenamiento, es decir, aprende el ruido y las excepciones en los datos y no se adapta a los nuevos datos que se agregan. Esto puede suceder cuando los datos de entrenamiento son demasiado pequeños, contienen información irrelevante o el modelo se entrena durante demasiado tiempo en un solo conjunto de muestras. Los puntos de referencia HumanEval y GSM-8K, por otro lado, se utilizan para probar la generación de código y la aritmética. razonamiento respectivamente.Mejoras sobre Llama 2Meta en una publicación de blog dijo que ha realizado muchas mejoras en Llama 3, incluida la opción de optar por una arquitectura transformadora estándar solo decodificadora. “Llama 3 usa un tokenizador con un vocabulario de 128K tokens que codifica el lenguaje mucho más eficientemente, lo que conduce a un rendimiento del modelo sustancialmente mejorado”, dijo la compañía. Para mejorar la eficiencia de inferencia de los modelos Llama 3, la compañía dijo que ha adoptado atención de consultas agrupadas (GQA) en los tamaños 8B y 70B. “Nosotros entrenó los modelos en secuencias de 8.192 tokens, usando una máscara para garantizar que la autoatención no cruce los límites de los documentos”, agregó. Otras mejoras incluyen el conjunto de datos de entrenamiento de Llama 3, que según la compañía es siete veces más grande que el utilizado para entrenar a Llama 2. Llama 3 está preentrenada con más de 15 billones de tokens que se recopilaron de fuentes disponibles públicamente, dijo la compañía. Para garantizar que Llama 3 fuera entrenada con datos de alta calidad, la compañía desarrolló una serie de filtros de datos. canalizaciones, que incluyen el uso de filtros heurísticos, filtros NSFW, enfoques de deduplicación semántica y clasificadores de texto. “Descubrimos que las generaciones anteriores de Llama son sorprendentemente buenas para identificar datos de alta calidad, por lo que utilizamos Llama 2 para generar los datos de entrenamiento para el texto. Clasificadores de alta calidad que impulsan Llama 3”, dijo la compañía. Para reducir el tiempo de capacitación en un 95% en comparación con Llama 2, Meta afirma que utilizó una pila de capacitación avanzada que automatiza la detección, el manejo y el mantenimiento de errores. «Mejoramos enormemente la confiabilidad de nuestro hardware y los mecanismos de detección de corrupción silenciosa de datos, y desarrollamos nuevos sistemas de almacenamiento escalables que reducen los gastos generales de los puntos de control y la reversión», dijo la compañía. Las ejecuciones de entrenamiento para Llama 3 se ejecutaron en dos clústeres de GPU de 24K personalizados. La combinación de todas las mejoras y avances, incluidas las funciones de seguridad mejoradas, distingue a los nuevos modelos de competidores como ChatGPT de OpenAI, Le Chat de Mistral, Gemini de Google y Grok de x.AI, dijo Paul Nashawaty, líder de práctica de desarrollo y modernización de aplicaciones. en The Futurum Group. El enfoque que Meta ha adoptado con Llama 3 puede ofrecer una vía distinta para comprender y navegar mejor las interacciones humanas, agregó Nashawaty. ¿Qué más obtienes con Llama 3? Como parte del lanzamiento de las dos variantes de Llama 3, Meta dijo que estaba introduciendo nuevas herramientas de confianza y seguridad, como Llama Guard 2, Code Shield y CyberSec Eval 2. Si bien Llama Guard 2 es un modelo de protección que los desarrolladores pueden usar como una capa adicional para reducir la probabilidad de que su modelo genere resultados que no están alineados con las pautas previstas, Code Shield es una herramienta dirigida a los desarrolladores para ayudar a reducir la posibilidad de generar código potencialmente inseguro. Por otro lado, CyberSecEval, que está diseñado para ayudar a los desarrolladores a evaluar cualquier riesgo de ciberseguridad con el código generado. por LLM, se ha actualizado con una nueva capacidad. “Cybersec Eval 2 amplía su predecesor al medir la susceptibilidad de un LLM a la inyección rápida, las capacidades de ciberseguridad ofensiva automatizada y la propensión a abusar de un intérprete de código, además de las evaluaciones existentes para codificación insegura. prácticas”, dijo la empresa. Para mostrar el poder de sus nuevos LLM, la compañía también lanzó un nuevo asistente de inteligencia artificial, respaldado por los nuevos modelos, al que se puede acceder a través de sus plataformas Facebook, Instagram y WhatsApp. También se ha diseñado una página web separada para ayudar a los usuarios a acceder al asistente. La compañía ya está trabajando en variantes de Llama 3, que tienen más de 400 mil millones de parámetros. Meta dijo que lanzará estas variantes en los próximos meses a medida que se complete su capacitación efectiva. Los modelos Llama 3 están disponibles en AWS, Hugging Face, IBM WatsonX, Microsoft Azure, Google Cloud y Nvidia NIM. Otros proveedores, como Databricks , Kaggle y Snowflake también ofrecerán los últimos modelos. En términos de hardware para entrenamiento, inferencia y tareas relacionadas con la IA, Llama 3 contará con el soporte de AMD, AWS, Dell, Intel, Nvidia y Qualcomm. Copyright © 2024 IDG Communications, Inc.