En el mundo de la IA, hay un rumor en el aire sobre un nuevo modelo de lenguaje de IA lanzado el martes por Meta: Llama 3.1 405B. ¿El motivo? Es potencialmente la primera vez que alguien puede descargar un modelo de lenguaje grande (LLM) de clase GPT-4 de forma gratuita y ejecutarlo en su propio hardware. Aún así, necesitará un hardware potente: Meta dice que puede ejecutarse en un «nodo de servidor único», que no es un equipo de nivel PC de escritorio. Pero es un disparo provocador a la proa de los proveedores de modelos de IA «cerrados» como OpenAI y Anthropic. «Llama 3.1 405B es el primer modelo disponible abiertamente que rivaliza con los mejores modelos de IA en lo que respecta a capacidades de vanguardia en conocimiento general, capacidad de dirección, matemáticas, uso de herramientas y traducción multilingüe», dice Meta. El director ejecutivo de la empresa, Mark Zuckerberg, llama a 405B «el primer modelo de IA de código abierto de nivel de frontera». En la industria de la IA, el término «modelo de frontera» se utiliza para designar a un sistema de IA diseñado para ampliar los límites de las capacidades actuales. En este caso, Meta está posicionando a 405B entre los mejores modelos de IA de la industria, como GPT-4o de OpenAI, 3.5 Sonnet de Claude y Google Gemini 1.5 Pro. Un gráfico publicado por Meta sugiere que 405B se acerca mucho a igualar el rendimiento de GPT-4 Turbo, GPT-4o y Claude 3.5 Sonnet en puntos de referencia como MMLU (conocimiento de nivel de pregrado), GSM8K (matemáticas de escuela primaria) y HumanEval (codificación). Pero, como hemos señalado muchas veces desde marzo, estos puntos de referencia no son necesariamente científicamente sólidos y no transmiten la experiencia subjetiva de interactuar con modelos de lenguaje de IA. De hecho, esta lista tradicional de puntos de referencia de IA es tan inútil para los profanos que incluso el departamento de relaciones públicas de Meta simplemente publicó algunas imágenes de gráficos numéricos sin intentar explicar su significado en detalle. Ampliar / Un gráfico proporcionado por Meta que muestra los resultados de referencia de Llama 3.1 405B en comparación con otros modelos de IA importantes. En cambio, hemos descubierto que medir la experiencia subjetiva de usar un modelo de IA conversacional (a través de lo que podría llamarse «vibemarking») en tablas de clasificación A/B como Chatbot Arena es una mejor manera de juzgar a los nuevos LLM. En ausencia de datos de Chatbot Arena, Meta ha proporcionado los resultados de sus propias evaluaciones humanas de los resultados de 405B que parecen mostrar que el nuevo modelo de Meta se mantiene firme frente a GPT-4 Turbo y Claude 3.5 Sonnet. Ampliar / Un gráfico proporcionado por Meta que muestra cómo los humanos calificaron los resultados de Llama 3.1 405B en comparación con GPT-4 Turbo, GPT-4o y Claude 3.5 Sonnet en sus propios estudios. Independientemente de los puntos de referencia, las primeras palabras en la calle (después de que el modelo se filtró en 4chan ayer) parecen coincidir con la afirmación de que 405B es aproximadamente equivalente a GPT-4. Se necesitó mucho tiempo y un costoso entrenamiento informático para llegar a ese punto, y dinero, del cual el gigante de las redes sociales tiene mucho para gastar. Meta entrenó el modelo 405B con más de 15 billones de tokens de datos de entrenamiento extraídos de la web (luego analizados, filtrados y anotados por Llama 2), utilizando más de 16.000 GPU H100. Entonces, ¿a qué se debe el nombre 405B? En este caso, «405B» significa 405 mil millones de parámetros, y los parámetros son valores numéricos que almacenan información entrenada en una red neuronal. Más parámetros se traducen en una red neuronal más grande que alimenta el modelo de IA, lo que generalmente (pero no siempre) significa más capacidad, como una mejor capacidad para hacer conexiones contextuales entre conceptos. Pero los modelos con parámetros más grandes tienen la desventaja de necesitar más potencia de cómputo (también conocida como «computación») para ejecutarse. Hemos estado esperando el lanzamiento de un modelo de más de 400 mil millones de parámetros de la familia Llama 3 desde que Meta anunció que estaba entrenando uno en abril, y el anuncio de hoy no se trata solo del miembro más grande de la familia Llama 3: hay una iteración completamente nueva de modelos Llama mejorados con la designación «Llama 3.1». Eso incluye versiones mejoradas de sus modelos 8B y 70B más pequeños, que ahora cuentan con soporte multilingüe y una longitud de contexto extendida de 128,000 tokens (la «longitud de contexto» es aproximadamente la capacidad de memoria de trabajo del modelo, y los «tokens» son fragmentos de datos utilizados por los LLM para procesar información). Meta dice que 405B es útil para resúmenes de texto de formato largo, agentes conversacionales multilingües y asistentes de codificación, y para crear datos sintéticos utilizados para entrenar futuros modelos de lenguaje de IA. Cabe destacar que ese último caso de uso, que permite a los desarrolladores usar resultados de los modelos Llama para mejorar otros modelos de IA, ahora está oficialmente respaldado por la licencia Llama 3.1 de Meta por primera vez. Abusar del término “código abierto” Llama 3.1 405B es un modelo de ponderaciones abiertas, lo que significa que cualquiera puede descargar los archivos de la red neuronal entrenada y ejecutarlos o ajustarlos. Eso desafía directamente un modelo de negocios donde las compañías como OpenAI se guardan las ponderaciones para sí mismas y en su lugar monetizan el modelo a través de envoltorios de suscripción como ChatGPT o cobran por el acceso por token a través de una API. Luchar contra el modelo de IA “cerrado” es un gran problema para Mark Zuckerberg, quien simultáneamente publicó hoy un manifiesto de 2.300 palabras sobre por qué la compañía cree en las versiones abiertas de los modelos de IA, titulado “La IA de código abierto es el camino a seguir”. Más sobre la terminología en un minuto. Pero brevemente, escribe sobre la necesidad de modelos de IA personalizables que ofrezcan control al usuario y fomenten una mejor seguridad de los datos, una mayor rentabilidad y una mejor preparación para el futuro, en lugar de soluciones bloqueadas por el proveedor. Todo eso suena razonable, pero desbaratar a la competencia utilizando un modelo subvencionado por un fondo de guerra de las redes sociales también es una forma eficiente de jugar al spoiler en un mercado en el que no siempre se puede ganar con la tecnología más puntera. Las versiones abiertas de modelos de IA benefician a Meta, dice Zuckerberg, porque no quiere quedar atrapado en un sistema en el que empresas como la suya tienen que pagar un peaje para acceder a las capacidades de IA, estableciendo comparaciones con los «impuestos» que Apple impone a los desarrolladores a través de su App Store. Ampliar / Una captura de pantalla del ensayo de Mark Zuckerberg, «La IA de código abierto es el camino a seguir», publicado el 23 de julio de 2024. Entonces, sobre ese término «código abierto». Como escribimos por primera vez en una actualización de nuestro artículo de lanzamiento de Llama 2 hace un año, «código abierto» tiene un significado muy particular que tradicionalmente ha sido definido por la Iniciativa de Código Abierto. La industria de la IA aún no se ha decidido por la terminología para las versiones de modelos de IA que envían código o pesos con restricciones (como Llama 3.1) o que se envían sin proporcionar datos de entrenamiento. En su lugar, hemos estado llamando a estos lanzamientos «pesos abiertos». Desafortunadamente para los fanáticos de la terminología, Zuckerberg ahora ha incorporado la etiqueta errónea de «código abierto» en el título de su ensayo mencionado anteriormente, potencialmente histórico, sobre lanzamientos abiertos de IA, por lo que luchar por el término correcto en IA puede ser una batalla perdida. Aún así, su uso molesta a personas como el investigador independiente de IA Simon Willison, a quien le gusta el ensayo de Zuckerberg por lo demás. «Veo el destacado mal uso que hace Zuck de ‘código abierto’ como un acto de vandalismo cultural a pequeña escala», dijo Willison a Ars Technica. «El código abierto debería tener un significado acordado. Abusar del término debilita ese significado, lo que hace que el término sea menos útil en general, porque si alguien dice ‘es código abierto’, eso ya no me dice nada útil. Entonces tengo que investigar y averiguar de qué están hablando realmente». Los modelos Llama 3.1 están disponibles para descargar a través del propio sitio web de Meta y en Hugging Face. Ambos requieren proporcionar información de contacto y aceptar una licencia y una política de uso aceptable, lo que significa que, técnicamente y legalmente, Meta puede impedirle el uso de Llama 3.1 o sus resultados en cualquier momento.