PM Images/Getty ImagesLos desarrolladores de inteligencia artificial generativa (Gen AI) continuamente amplían los límites de lo posible, como Gemini 1.5 de Google, que puede recibir un millón de tokens de información a la vez. Sin embargo, incluso este nivel de desarrollo no es suficiente para lograr un progreso real en IA, dicen los competidores que compiten de tú a tú con Google. «Necesitamos pensar más allá de los LLM», dijo el cofundador y codirector ejecutivo de AI21 Labs, Yoav Shoham, en una entrevista con ZDNET. Además: 3 formas en que Llama 3.1 de Meta es un avance para Gen AIAI21 Labs, una startup con respaldo privado, compite con Google en LLM, los grandes modelos de lenguaje que son la base de Gen AI. Shoham, quien alguna vez fue científico principal de Google, también es profesor emérito de la Universidad de Stanford. «Son increíbles en los resultados que producen, pero en realidad no entienden lo que están haciendo», dijo sobre los LLM. «Creo que incluso los más acérrimos expertos en redes neuronales no creen que basta con construir un modelo de lenguaje más grande para que resuelva todo». Los investigadores de AI21 Labs destacan los errores básicos del GPT-3 de OpenAI como un ejemplo de cómo los modelos tropiezan con cuestiones básicas. La respuesta, sostiene la startup, es aumentar los LLM con algo más, como módulos que puedan funcionar de forma consistente. AI21 LabsLa startup de Shoham ha sido pionera en nuevos enfoques de Gen AI que van más allá del tradicional «transformador», el elemento central de la mayoría de los LLM. Por ejemplo, AI21 Labs estrenó en abril un modelo llamado Jamba, una combinación intrigante de transformadores con una segunda red neuronal llamada modelo de espacio de estado (SSM). La mezcla ha permitido que Jamba supere a otros modelos de IA en métricas importantes. Shoham pidió a ZDNET una explicación detallada de una métrica importante: la longitud del contexto. La longitud del contexto es la cantidad de entrada (en tokens, normalmente palabras) que un programa puede manejar. Llama 3.1 de Meta admite hasta 128.000 tokens en su ventana de contexto. Jamba de AI21 Labs, que también es un software de código abierto, tiene el doble de esa cifra: una ventana de contexto de 256.000 tokens. Shoham. «Incluso los más acérrimos expertos en redes neuronales no creen que solo se puede construir un modelo de lenguaje más grande y resolver todo». Fotografía de Roei Shor En pruebas cara a cara, utilizando una prueba de referencia construida por Nvidia, Shoham dijo que el modelo Jamba era el único modelo además de Gemini que podía mantener esa ventana de contexto de 256K «en la práctica». La longitud del contexto se puede publicitar como una cosa, pero puede desmoronarse a medida que un modelo obtiene una puntuación más baja a medida que aumenta la longitud del contexto. Además: 3 formas en que Llama 3.1 de Meta es un avance para Gen AI «Somos los únicos que tenemos la verdad en la publicidad», en lo que respecta a la longitud del contexto, dijo Shoham. «Todos los demás modelos se degradan con el aumento de la longitud del contexto». Gemini de Google no se puede probar más allá de 128K, dijo Shoham, dadas las limitaciones impuestas a la interfaz de programación de aplicaciones Gemini por Google. «De hecho, tienen una buena ventana de contexto efectiva, al menos, a 128K», dijo. Jamba es más económico que Gemini para la misma ventana de 128K, dijo Shoham. «Son aproximadamente 10 veces más caros que nosotros», en términos del costo de ofrecer predicciones de Gemini frente a Jamba, la práctica de inferencia, dijo. Todo eso, enfatizó Shoham, es un producto de la elección «arquitectónica» de hacer algo diferente, unir un transformador a un SSM. «Puedes mostrar exactamente cuántos [API] «Se hacen llamadas» al modelo, dijo a ZDNET. «No es solo el costo y la latencia, es inherente a la arquitectura». Shoham ha descrito los hallazgos en una publicación de blog. Sin embargo, nada de ese progreso importa, a menos que Jamba pueda hacer algo superior. Los beneficios de tener una gran ventana de contexto se vuelven evidentes, dijo Shoham, a medida que el mundo avanza hacia cosas como la generación aumentada por recuperación (RAG), un enfoque cada vez más popular de conectar un LLM a una fuente de información externa, como una base de datos. También: Haga espacio para RAG: cómo está cambiando el equilibrio de poder de Gen AI Una gran ventana de contexto permite que el LLM recupere y clasifique más información de la fuente RAG para encontrar la respuesta. «Al final del día, recupere todo lo que pueda [from the database]»Pero no demasiado», es el enfoque correcto para RAG, dijo Shoham. «Ahora, puedes recuperar más de lo que podías antes, si tienes una ventana de contexto larga, y ahora el modelo de lenguaje tiene más información con la que trabajar». Cuando se le preguntó si existe un ejemplo práctico de este esfuerzo, Shoham dijo a ZDNET: «Es demasiado pronto para mostrar un sistema en funcionamiento. Puedo decirles que tenemos varios clientes que se han sentido frustrados con las soluciones RAG, que están trabajando con nosotros ahora. Y estoy bastante seguro de que podremos mostrar públicamente los resultados, pero no ha estado disponible durante el tiempo suficiente». Jamba, que ha tenido 180.000 descargas desde que se puso en HuggingFace, está disponible en el servicio de inferencia Bedrock de AWS de Amazon y en Microsoft Azure, y «la gente está haciendo cosas interesantes con él», dijo Shoham. Dicho esto, incluso un RAG mejorado no es en última instancia la salvación para las diversas deficiencias de Gen AI, desde alucinaciones hasta el riesgo de que generaciones de la tecnología se conviertan en un galimatías. «Creo que vamos a ver a la gente exigiendo más, exigiendo que los sistemas no sean ridículos y que tengan algo que parezca una comprensión real, que tenga respuestas casi perfectas», dijo Shoham, «y eso no serán LLM puros». Además: Cuidado con el ‘colapso del modelo’ de IA: cómo el entrenamiento con datos sintéticos contamina la próxima generación En un artículo publicado el mes pasado en el servidor de preimpresión arXiv, con el colaborador Kevin Leyton-Brown, titulado «Entender la comprensión: una comprensión pragmática En su libro «Marco motivado por grandes modelos de lenguaje», Shoham demostró cómo, a través de numerosas operaciones, como las matemáticas y la manipulación de datos de tablas, los LLM produjeron «explicaciones que parecían convincentes pero que no valen el papel metafórico en el que están escritas». «Mostramos cómo enganchar ingenuamente [an LLM] «Si se hace una tabla, esa función de tabla dará éxito el 70% u 80% de las veces», dijo Shoham a ZDNET. «Eso suele ser muy agradable porque se obtiene algo a cambio de nada, pero si se trata de un trabajo de misión crítica, no se puede hacer eso». Tales fallas, dijo Shoham, significan que «todo el enfoque para crear inteligencia dirá que los LLM tienen un papel que desempeñar, pero son parte de un sistema de IA más grande que trae a la mesa cosas que no se pueden hacer con los LLM». Entre las cosas necesarias para ir más allá de los LLM están las diversas herramientas que han surgido en los últimos años, dijo Shoham. Elementos como las llamadas a funciones permiten que un LLM transfiera una tarea a otro tipo de software creado específicamente para una tarea en particular. «Si desea realizar sumas, los modelos de lenguaje hacen sumas, pero lo hacen terriblemente», dijo Shoham. «Hewlett-Packard nos dio una calculadora en 1970, ¿por qué reinventar la rueda? Ese es un ejemplo de una herramienta». Shoham y otros agrupan ampliamente el uso de LLM con herramientas bajo la rúbrica «sistemas de IA compuestos». Con la ayuda de la empresa de gestión de datos Databricks, Shoham organizó recientemente un taller sobre las perspectivas de construcción de dichos sistemas. Un ejemplo del uso de dichas herramientas es presentar a los LLM la «estructura semántica» de los datos basados ​​en tablas, dijo Shoham. «Ahora se llega a una precisión cercana al cien por ciento» del LLM, dijo, «y esto no se conseguiría si se utilizara simplemente un modelo de lenguaje sin elementos adicionales». Más allá de las herramientas, Shoham aboga por la exploración científica de otras direcciones fuera del enfoque de aprendizaje profundo puro que ha dominado la IA durante más de una década. «No se consigue un razonamiento sólido simplemente retropropagando y esperando que todo salga bien», afirma Shoham, refiriéndose a la retropropagación, la regla de aprendizaje con la que se entrena la mayor parte de la IA actual. Además: Anthropic saca de la fase beta Tool Use for Claude, prometiendo asistentes sofisticados Shoham tuvo cuidado de no hablar de las próximas iniciativas de productos, pero insinuó que lo que puede necesitarse está representado, al menos filosóficamente, en un sistema que él y sus colegas introdujeron en 2022 llamado Sistema MRKL (Modular Reasoning, Knowledge, and Language). El artículo describe el sistema MRKL como «neuronal, que incluye el modelo de lenguaje enorme de propósito general, así como otros LM más pequeños y especializados», y también «simbólico, por ejemplo, una calculadora matemática, un conversor de divisas o una llamada API a una base de datos». Esa amplitud es un enfoque neurosimbólico de la IA. En ese sentido, Shoham está de acuerdo con algunos pensadores destacados que tienen inquietudes sobre el predominio de la IA de generación. Por ejemplo, Gary Marcus, un frecuente crítico de la IA, ha dicho que la IA nunca alcanzará la inteligencia de nivel humano sin una capacidad de manipulación de símbolos. MRKL se ha implementado como un programa llamado Jurassic-X, que la startup ha probado con sus socios. Además: OpenAI está entrenando al sucesor de GPT-4. Aquí hay 3 grandes mejoras que se esperan de GPT-5Un sistema MRKL debería poder usar el LLM para analizar problemas que involucran frases complicadas, como, por ejemplo, «99 botellas de cerveza en la pared. Una se cayó. ¿Cuántas botellas de cerveza hay en la pared?» La aritmética real es manejada por una segunda red neuronal con acceso a la lógica aritmética, utilizando los argumentos extraídos del texto por el primer modelo. Un «enrutador» entre los dos tiene la difícil tarea de elegir qué cosas extraer del texto analizado por el LLM y elegir a qué «módulo» pasar los resultados para realizar la lógica. Ese trabajo significa que «no hay almuerzo gratis, pero ese almuerzo es en muchos casos asequible», escribió el equipo de Shoham. Desde un punto de vista de producto y comercial, «nos gustaría, de manera continua, proporcionar funcionalidades adicionales para que la gente construya cosas», dijo Shoham. Además: AI21 y Databricks muestran que el código abierto puede reducir radicalmente la IAEl punto importante es que un sistema como MRKL no necesita hacer todo para ser práctico, dijo. «Si estás tratando de construir el LLM universal que entiende los problemas matemáticos y cómo generar imágenes de burros en la luna, y cómo escribir poemas, y hacer todo eso, eso puede ser costoso», observó. «Pero el 80% de los datos de la empresa son textos: hay tablas, hay gráficos, pero los burros en la luna no son tan importantes en la empresa». Teniendo en cuenta el escepticismo de Shoham sobre los LLM por sí solos, ¿existe el peligro de que la actual generación de IA pueda provocar lo que se conoce como un invierno de la IA (un colapso repentino de la actividad, ya que el interés y la financiación se agotan por completo)? «Es una pregunta válida, y realmente no sé la respuesta», dijo. «Creo que esta vez es diferente en el sentido de que, en los años 80», durante el último invierno de la IA, «la IA no había creado suficiente valor para compensar la publicidad infundada. Claramente ahora hay cierta publicidad infundada, pero tengo la sensación de que se ha creado suficiente valor para que podamos superarlo».