Los LLM siguen avanzando con Llama 3, el modelo de IA de pesos abiertos más nuevo de Meta

El jueves, Meta presentó las primeras versiones de su modelo de IA de peso abierto Llama 3 que se puede utilizar para impulsar la composición de texto, la generación de código o chatbots. También anunció que su Asistente Meta AI ahora está disponible en un sitio web y se integrará en sus principales aplicaciones de redes sociales, intensificando los esfuerzos de la compañía para posicionar sus productos frente a otros asistentes de IA como ChatGPT de OpenAI, Copilot de Microsoft y Gemini de Google. Al igual que su predecesor, Llama 2, Llama 3 se destaca por ser un modelo de lenguaje grande (LLM) de peso abierto y disponible gratuitamente proporcionado por una importante empresa de inteligencia artificial. Llama 3 técnicamente no califica como «código abierto» porque ese término tiene un significado específico en software (como hemos mencionado en otra cobertura), y la industria aún no se ha decidido por la terminología para los lanzamientos de modelos de IA que incluyen código o pesos con restricciones (puedes leer la licencia de Llama 3 aquí) o ese barco sin proporcionar datos de entrenamiento. Normalmente llamamos a estos lanzamientos «pesos abiertos». Por el momento, Llama 3 está disponible en dos tamaños de parámetros: 8 mil millones (8B) y 70 mil millones (70B), los cuales están disponibles como descargas gratuitas a través del sitio web de Meta con un registro. Llama 3 viene en dos versiones: preentrenada (básicamente el modelo de predicción del siguiente token sin procesar) y ajustada por instrucciones (ajustada para seguir las instrucciones del usuario). Cada uno tiene un límite de contexto de 8192 tokens. Ampliar / Una captura de pantalla del sitio web de Meta AI Assistant el 18 de abril de 2024. Benj Edwards Meta entrenó ambos modelos en dos clústeres de 24.000 GPU personalizados. En una entrevista en podcast con Dwarkesh Patel, el director ejecutivo de Meta, Mark Zuckerberg, dijo que la empresa entrenó el modelo 70B con alrededor de 15 billones de tokens de datos. A lo largo del proceso, el modelo nunca alcanzó la «saturación» (es decir, nunca chocó contra una pared en términos de aumentos de capacidad). Finalmente, Meta desconectó y pasó a entrenar otros modelos. «Supongo que nuestra predicción al principio era que iba a tener más asíntotas, pero incluso al final todavía se estaba inclinando. Probablemente podríamos haberle alimentado con más tokens y habría mejorado un poco», dijo Zuckerberg en el podcast. Meta también anunció que actualmente está entrenando una versión de 400B de parámetros de Llama 3, que algunos expertos como Jim Fan de Nvidia creen que puede funcionar en la misma liga que GPT-4 Turbo, Claude 3 Opus y Gemini Ultra en puntos de referencia como MMLU, GPQA. , HumanEval y MATEMÁTICAS. Hablando de puntos de referencia, hemos dedicado muchas palabras en el pasado a explicar cuán frustrantemente imprecisos pueden ser los puntos de referencia cuando se aplican a modelos de lenguaje grandes debido a problemas como la contaminación del entrenamiento (es decir, incluir preguntas de pruebas de punto de referencia en el conjunto de datos de entrenamiento), la selección selectiva de por parte de los proveedores y la incapacidad de capturar la utilidad general de la IA en una sesión interactiva con modelos sintonizados por chat. Pero, como era de esperar, Meta proporcionó algunos puntos de referencia para Llama 3 que enumeran los resultados de MMLU (conocimiento a nivel de pregrado), GSM-8K (matemáticas de escuela primaria), HumanEval (codificación), GPQA (preguntas de nivel de posgrado) y MATH (matemáticas). problemas de palabras). Estos muestran que el modelo 8B funciona bien en comparación con modelos de peso abierto como Gemma 7B y Mistral 7B Instruct de Google, y el modelo 70B también se mantuvo firme frente a Gemini Pro 1.5 y Claude 3 Sonnet. Ampliar / Un cuadro de puntos de referencia de Llama 3 8B y 70B ajustados por instrucciones proporcionado por Meta. Meta dice que el modelo Llama 3 se ha mejorado con capacidades para comprender la codificación (como Llama 2) y, por primera vez, se ha entrenado tanto con imágenes como con texto, aunque actualmente solo genera texto. Según Reuters, Chris Cox, director de productos de Meta, señaló en una entrevista que se esperan capacidades de procesamiento más complejas (como la ejecución de planes de varios pasos) en futuras actualizaciones de Llama 3, que también admitirá salidas multimodales, es decir, tanto texto como imágenes. . Meta planea alojar los modelos Llama 3 en una variedad de plataformas en la nube, haciéndolas accesibles a través de AWS, Databricks, Google Cloud y otros proveedores importantes. También el jueves, Meta anunció que Llama 3 se convertirá en la nueva base del asistente virtual Meta AI, que la compañía anunció por primera vez en septiembre. El asistente aparecerá de manera destacada en las funciones de búsqueda de Facebook, Instagram, WhatsApp, Messenger y el sitio web dedicado antes mencionado que presenta un diseño similar a ChatGPT, incluida la capacidad de generar imágenes en la misma interfaz. La compañía también anunció una asociación con Google para integrar resultados de búsqueda en tiempo real en el asistente Meta AI, sumándose a una asociación existente con Bing de Microsoft.

Todo lo que necesitas saber sobre tecnología

Los LLM siguen avanzando con Llama 3, el modelo de IA de pesos abiertos más nuevo de Meta

Deja una respuesta Cancelar la respuesta

Los LLM siguen avanzando con Llama 3, el modelo de IA de pesos abiertos más nuevo de Meta

Android 15: las 10 mejores funciones nuevas

Sony Xperia 1 VI puede romper la cubierta pronto

Deja una respuesta Cancelar la respuesta