Meta ha lanzado su último modelo de lenguaje grande (LLM), llamado Llama 3, y afirma que desafiará modelos mucho más grandes de empresas como Google, Mistral y Anthropic. Llama 3, revelado en un extenso anuncio el jueves, está disponible en versiones que van desde ocho mil millones hasta más de 400 mil millones de parámetros. Como referencia, OpenAI y los modelos más grandes de Google se acercan a los dos billones de parámetros. Por ahora, solo tenemos acceso a las variantes de texto de parámetros de ocho mil millones y 70 mil millones de Llama 3. Meta aún no ha terminado de entrenar sus modelos más grandes y complejos, pero insinúa que serán multilingües y multimodales, lo que significa que están ensamblados a partir de múltiples modelos optimizados para dominios más pequeños. Incluso con apenas 70 mil millones de parámetros, Meta afirma que Llama 3 es más que capaz de competir cara a cara con modelos mucho más grandes. Meta afirma que Llama3-8B y 70B pueden superar a modelos mucho más grandes, incluidos Gemini Pro y Claude 3 de Antrhopic. Haga clic para ampliar Mejores datos, mejor modelo. Una de las mayores ganancias, según Meta, proviene del uso de un tokenizador con un vocabulario de 128.000. fichas. En el contexto de los LLM, los tokens pueden ser unos pocos caracteres, palabras completas o incluso frases. Las IA descomponen la entrada humana en tokens y luego usan sus vocabularios de tokens para generar resultados. Meta explicó que su tokenizador ayuda a codificar el lenguaje de manera más eficiente, lo que aumenta significativamente el rendimiento. Se lograron beneficios adicionales mediante el uso de conjuntos de datos de mayor calidad y pasos de ajuste adicionales después del entrenamiento para mejorar el rendimiento y la precisión general del modelo. Específicamente, Meta reveló que Llama 3 fue preentrenada con más de 15 billones de tokens recolectados de fuentes disponibles públicamente. El conjunto de datos de entrenamiento de Llama 3 es más de siete veces mayor y contiene cuatro veces más código que Llama 2, que se lanzó hace apenas nueve meses. Pero, como dice el refrán, «basura entra, basura sale», por eso Meta afirma que desarrolló una serie de canales de filtrado de datos para garantizar que Llama 3 fuera entrenado con la menor cantidad de información mala posible. Esos controles de calidad incluyeron filtros heurísticos y NSFW, así como también deduplicación de datos y clasificadores de texto utilizados para predecir la calidad de la información antes del entrenamiento. Meta incluso utilizó su antiguo modelo Llama 2, que según dijo era «sorprendentemente bueno para identificar datos de alta calidad», para ayudar a separar el trigo de la paja. El cinco por ciento de los datos de entrenamiento provino de más de 30 idiomas, lo que Meta predijo que en el futuro ayudará a incorporar capacidades multilingües más sustanciales al modelo. Por ahora, Social Network™️ dice que los usuarios no deberían esperar el mismo grado de rendimiento en otros idiomas además del inglés. Entrenar modelos pequeños en un conjunto de datos tan grande generalmente se considera una pérdida de tiempo de computación e incluso produce rendimientos decrecientes en precisión. La combinación ideal de datos de entrenamiento para computar recursos se conoce como el «óptimo de Chinchilla». [PDF] cantidad. Según Meta, para un modelo de ocho mil millones de parámetros como Llama3-8B, esto equivaldría a unos 200 mil millones de tokens. Sin embargo, en las pruebas, Meta descubrió que el rendimiento de Llama 3 continuó mejorando incluso cuando se entrenó en conjuntos de datos más grandes. «Tanto nuestro modelo de parámetros de ocho mil millones como nuestro de 70 mil millones continuaron mejorando de manera log-lineal después de que los entrenamos en hasta 15 billones de tokens», escribió el negocio. Al parecer, el resultado es un modelo relativamente compacto capaz de generar resultados comparables a modelos mucho más grandes. Probablemente se consideró que valía la pena la compensación en computación, ya que los modelos más pequeños generalmente son más fáciles de inferir y, por lo tanto, más fáciles de implementar a escala. Con una precisión de 8 bits, un modelo de ocho mil millones de parámetros requiere sólo 8 GB de memoria. Bajar a una precisión de 4 bits (ya sea usando hardware que la admita o usando cuantificación para comprimir el modelo) reduciría los requisitos de memoria a aproximadamente la mitad. Meta entrenó el modelo en un par de clústeres de computación, cada uno de los cuales contenía 24.000 GPU Nvidia. Como se puede imaginar, entrenar en un grupo tan grande, si bien es más rápido, también presenta algunos desafíos: aumenta la probabilidad de que algo falle en medio de una ejecución de entrenamiento. Para mitigar esto, Meta explicó que desarrolló una pila de capacitación que automatiza la detección, el manejo y el mantenimiento de errores. El hiperescalador también agregó sistemas de almacenamiento y monitoreo de fallas para reducir la sobrecarga del punto de control y la reversión en caso de que se interrumpa una ejecución de entrenamiento. Y una vez completado, Meta sometió los modelos a una serie de pruebas posteriores al entrenamiento y pasos de ajuste. Además de Llama3-8B y 70B, Meta también lanzó herramientas de confianza y seguridad nuevas y actualizadas, incluidas Llama Guard 2 y Cybersec Eval 2, para ayudar a los usuarios a proteger el modelo contra abusos y/o ataques de inyección rápida. Code Shield es otra adición que proporciona barreras de seguridad diseñadas para ayudar a filtrar el código inseguro generado por Llama 3. Como informamos anteriormente, la generación de código asistida por LLM ha dado lugar a algunos vectores de ataque interesantes que Meta busca evitar. Disponibilidad Durante los próximos meses, Meta planea implementar modelos adicionales, incluido uno que supera los 400 mil millones de parámetros y admite funciones, idiomas y ventanas de contexto más grandes. Este último permitirá a los usuarios realizar consultas más amplias y complejas, como resumir un gran bloque de texto. Llama3-8B y 70B están actualmente disponibles para descargar desde el sitio web de Meta. Amazon Web Services, Microsoft Azure, Google Cloud, Hugging Face y otros también planean ofrecer el modelo para su implementación en sus plataformas. Si desea probar Llama3 en su máquina, puede consultar nuestra guía sobre cómo ejecutar LLM locales aquí. Una vez que lo tengas instalado, puedes iniciarlo ejecutando: ollama run llama3 Diviértete y cuéntanos cómo te fue. ®