Getty Images En el mundo de la IA, los que podrían llamarse «modelos de lenguaje pequeño» han ganado popularidad recientemente porque pueden ejecutarse en un dispositivo local en lugar de requerir computadoras de centro de datos en la nube. El miércoles, Apple presentó un conjunto de pequeños modelos de lenguaje de inteligencia artificial disponibles llamado OpenELM que son lo suficientemente pequeños como para ejecutarse directamente en un teléfono inteligente. Por ahora son en su mayoría modelos de investigación de prueba de concepto, pero podrían formar la base de futuras ofertas de IA en dispositivos de Apple. Los nuevos modelos de IA de Apple, denominados colectivamente OpenELM por «Modelos de lenguaje eficientes de código abierto», están actualmente disponibles en Hugging Face bajo una licencia de código de muestra de Apple. Dado que existen algunas restricciones en la licencia, es posible que no se ajuste a la definición comúnmente aceptada de «código abierto», pero el código fuente de OpenELM está disponible. El martes cubrimos los modelos Phi-3 de Microsoft, cuyo objetivo es lograr algo similar: un nivel útil de comprensión del lenguaje y rendimiento de procesamiento en pequeños modelos de IA que pueden ejecutarse localmente. Phi-3-mini presenta 3.8 mil millones de parámetros, pero algunos de los modelos OpenELM de Apple son mucho más pequeños y oscilan entre 270 millones y 3 mil millones de parámetros en ocho modelos distintos. En comparación, el modelo más grande lanzado hasta ahora en la familia Llama 3 de Meta incluye 70 mil millones de parámetros (con una versión de 400 mil millones en camino), y el GPT-3 de OpenAI de 2020 se envió con 175 mil millones de parámetros. El recuento de parámetros sirve como una medida aproximada de la capacidad y complejidad del modelo de IA, pero investigaciones recientes se han centrado en hacer que los modelos de lenguaje de IA más pequeños sean tan capaces como lo eran los más grandes hace unos años. Los ocho modelos OpenELM vienen en dos versiones: cuatro como «preentrenados» (básicamente una versión sin procesar del modelo con el siguiente token) y cuatro como ajustados por instrucciones (afinados para seguir instrucciones, lo cual es más ideal para desarrollar asistentes de IA y chatbots): OpenELM presenta una ventana de contexto máxima de 2048 tokens. Los modelos se entrenaron en los conjuntos de datos disponibles públicamente RefinedWeb, una versión de PILE con duplicaciones eliminadas, un subconjunto de RedPajama y un subconjunto de Dolma v1.6, que según Apple totaliza alrededor de 1,8 billones de tokens de datos. Los tokens son representaciones fragmentadas de datos utilizados por los modelos de lenguaje de IA para su procesamiento. Apple dice que su enfoque con OpenELM incluye una «estrategia de escalamiento por capas» que, según se informa, asigna parámetros de manera más eficiente en cada capa, ahorrando no solo recursos computacionales sino también mejorando el rendimiento del modelo mientras se entrena con menos tokens. Según el documento técnico publicado por Apple, esta estrategia ha permitido a OpenELM lograr una mejora del 2,36 por ciento en precisión con respecto al OLMo 1B de Allen AI (otro modelo de lenguaje pequeño) al tiempo que requiere la mitad de tokens de preentrenamiento. Ampliar / Una tabla que compara OpenELM con otros pequeños modelos de lenguaje de IA de una clase similar, tomada del artículo de investigación OpenELM de Apple. Apple Apple también lanzó el código para CoreNet, una biblioteca que utilizó para entrenar OpenELM, y también incluía recetas de entrenamiento reproducibles. que permiten replicar los pesos (archivos de red neuronal), lo que hasta ahora es inusual para una importante empresa de tecnología. Como dice Apple en el resumen de su artículo OpenELM, la transparencia es un objetivo clave para la empresa: «La reproducibilidad y la transparencia de los grandes modelos de lenguaje son cruciales para avanzar en la investigación abierta, garantizar la confiabilidad de los resultados y permitir investigaciones sobre los sesgos de los datos y los modelos, como así como los riesgos potenciales.» Al publicar el código fuente, los pesos de los modelos y los materiales de capacitación, Apple dice que su objetivo es «potenciar y enriquecer la comunidad de investigación abierta». Sin embargo, también advierte que dado que los modelos fueron entrenados en conjuntos de datos de origen público, «existe la posibilidad de que estos modelos produzcan resultados inexactos, dañinos, sesgados o objetables en respuesta a las indicaciones de los usuarios». Si bien Apple aún no ha integrado esta nueva ola de capacidades de modelo de lenguaje de IA en sus dispositivos de consumo, se rumorea que la próxima actualización de iOS 18 (que se espera que se revele en junio en la WWDC) incluirá nuevas funciones de IA que utilizan el procesamiento en el dispositivo para garantizar que el usuario privacidad, aunque la empresa podría contratar a Google u OpenAI para manejar un procesamiento de IA más complejo fuera del dispositivo para darle a Siri un impulso que tanto necesitaba.