Las empresas de tecnología se han visto atrapadas en una carrera para construir los mayores modelos de lenguajes grandes (LLM). En abril, por ejemplo, Meta anunció el Llama 3 de 400 mil millones de parámetros, que contiene el doble de parámetros (o variables que determinan cómo el modelo responde a las consultas) que el modelo ChatGPT original de OpenAI de 2022. Aunque no está confirmado, GPT- 4 tiene alrededor de 1,8 billones de parámetros. Sin embargo, en los últimos meses, algunas de las empresas tecnológicas más grandes, incluidas Apple y Microsoft, han introducido modelos de lenguajes pequeños (SLM). Estos modelos son una fracción del tamaño de sus homólogos LLM y, sin embargo, en muchos puntos de referencia, pueden igualarlos o incluso superarlos en la generación de texto. El 10 de junio, en la Conferencia Mundial de Desarrolladores de Apple, la compañía anunció sus modelos «Apple Intelligence», que tienen alrededor de 3 mil millones de parámetros. Y a finales de abril, Microsoft lanzó su familia Phi-3 de SLM, con modelos que albergan entre 3.800 y 14.000 millones de parámetros. El director ejecutivo de OpenAI, Sam Altman, cree que estamos en el final de la era de los modelos gigantes. En una serie de pruebas, el más pequeño de los modelos de Microsoft, Phi-3-mini, rivalizaba con el GPT-3.5 de OpenAI (175 mil millones de parámetros), que impulsa la versión gratuita de ChatGPT, y superó al Gemma de Google (7 mil millones de parámetros). Las pruebas evaluaron qué tan bien un modelo comprende el lenguaje al plantearle preguntas sobre matemáticas, filosofía, derecho y más. Lo que es más interesante, el Phi-3-small de Microsoft, con 7 mil millones de parámetros, obtuvo resultados notablemente mejores que el GPT-3.5 en muchos de estos puntos de referencia. A Aaron Mueller, que investiga modelos de lenguaje en la Universidad Northeastern en Boston, no le sorprende que los SLM puedan ir de puntillas. -a la par con LLM en funciones seleccionadas. Dice que esto se debe a que escalar el número de parámetros no es la única forma de mejorar el rendimiento de un modelo: entrenarlo con datos de mayor calidad también puede producir resultados similares. Los modelos Phi de Microsoft se entrenaron con datos ajustados con «calidad de libro de texto». dice Mueller, que tienen un estilo más consistente del que es más fácil aprender que el texto muy diverso de Internet en el que suelen confiar los LLM. De manera similar, Apple entrenó a sus SLM exclusivamente en conjuntos de datos más ricos y complejos. El surgimiento de los SLM se produce en un momento en que la brecha de desempeño entre los LLM se está reduciendo rápidamente y las empresas de tecnología buscan desviarse de las leyes de escalamiento estándar y explorar otras vías para mejorar el desempeño. En un evento celebrado en abril, el director ejecutivo de OpenAI, Sam Altman, dijo que cree que estamos en el final de la era de los modelos gigantes. «Los mejoraremos de otras maneras». Debido a que los SLM no consumen tanta energía como los LLM, también pueden ejecutarse localmente en dispositivos como teléfonos inteligentes y computadoras portátiles (en lugar de en la nube) para preservar la privacidad de los datos y personalizarlos. a cada persona. En marzo, Google lanzó Gemini Nano a la línea de teléfonos inteligentes Pixel de la compañía. El SLM puede resumir grabaciones de audio y producir respuestas inteligentes a conversaciones sin conexión a Internet. Se espera que Apple haga lo mismo a finales de este año. Más importante aún, los SLM pueden democratizar el acceso a los modelos lingüísticos, afirma Mueller. Hasta ahora, el desarrollo de la IA se ha concentrado en manos de un par de grandes empresas que pueden permitirse el lujo de implementar infraestructura de alto nivel, mientras que otras operaciones y laboratorios más pequeños se han visto obligados a obtener licencias por costos elevados. Dado que los SLM se pueden entrenar fácilmente En hardware más asequible, dice Mueller, son más accesibles para aquellos con recursos modestos y aún así lo suficientemente capaces para aplicaciones específicas. Además, si bien los investigadores coinciden en que todavía queda mucho trabajo por delante para superar las alucinaciones, los SLM cuidadosamente seleccionados les brindan una un paso más hacia la construcción de una IA responsable que también sea interpretable, lo que potencialmente permitiría a los investigadores depurar problemas específicos de LLM y solucionarlos en la fuente. Para investigadores como Alex Warstadt, investigador de ciencias informáticas en ETH Zurich, los SLM también podrían ofrecer conocimientos nuevos y fascinantes. en una pregunta científica de larga data: cómo los niños adquieren su primera lengua. Warstadt, junto con un grupo de investigadores, incluido Mueller de Northeastern, organiza BabyLM, un desafío en el que los participantes optimizan el entrenamiento de modelos de lenguaje con datos pequeños. Los SLM no solo podrían desbloquear nuevos secretos de la cognición humana, sino que también ayudan a mejorar la IA generativa. Cuando los niños cumplen 13 años, están expuestos a alrededor de 100 millones de palabras y son mejores que los chatbots en el lenguaje, con acceso a sólo el 0,01 por ciento de los datos. Si bien nadie sabe qué hace que los humanos sean mucho más eficientes, dice Warstadt, «el aprendizaje humano eficiente mediante ingeniería inversa a pequeñas escalas podría conducir a enormes mejoras cuando se amplíe a escalas LLM».