Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder en la industria. Más información Los modelos de lenguaje grandes (LLM, por sus siglas en inglés) con ventanas de contexto muy largas han estado en los titulares últimamente. La capacidad de agrupar cientos de miles o incluso millones de tokens en un solo mensaje abre muchas posibilidades para los desarrolladores. Pero, ¿qué tan bien entienden y utilizan realmente estos LLM de contexto largo las grandes cantidades de información que reciben? Los investigadores de Google DeepMind han presentado Michelangelo, un nuevo punto de referencia diseñado para evaluar las capacidades de razonamiento de contexto largo de los LLM. Sus hallazgos, publicados en un nuevo artículo de investigación, muestran que si bien los modelos de frontera actuales han progresado en la recuperación de información de grandes datos en contexto, todavía tienen dificultades con tareas que requieren razonamiento sobre la estructura de datos. La necesidad de mejores puntos de referencia de contexto largo La aparición de LLM con ventanas de contexto extremadamente largas, que van desde 128.000 a más de 1 millón de tokens, ha llevado a los investigadores a desarrollar nuevos puntos de referencia para evaluar sus capacidades. Sin embargo, la mayor parte de la atención se ha centrado en tareas de recuperación, como la popular evaluación de “aguja en un pajar”, ​​donde el modelo tiene la tarea de encontrar una información específica dentro de un contexto amplio. «Con el tiempo, los modelos se han vuelto considerablemente más capaces en el desempeño de contextos prolongados», dijo a VentureBeat Kiran Vodrahalli, científico investigador de Google DeepMind. “Por ejemplo, la popular evaluación de recuperación de la aguja en un pajar ahora ha estado bien saturada hasta longitudes de contexto extremadamente largas. Por lo tanto, se ha vuelto importante determinar si las tareas más difíciles que los modelos son capaces de resolver en regímenes de contexto corto también son solucionables a largo plazo”. Las tareas de recuperación no reflejan necesariamente la capacidad de un modelo para razonar en todo el contexto. Un modelo podría encontrar un hecho específico sin comprender las relaciones entre las diferentes partes del texto. Mientras tanto, los puntos de referencia existentes que evalúan la capacidad de un modelo para razonar en contextos prolongados tienen limitaciones. «Es fácil desarrollar evaluaciones de razonamiento largo que se pueden resolver con una combinación de uso exclusivo de recuperación e información almacenada en pesos del modelo, ‘cortocircuitando’ así la prueba de la capacidad del modelo para usar el contexto largo», dijo Vodrahalli. Michelangelo Para abordar las limitaciones de los puntos de referencia actuales, los investigadores presentaron Michelangelo, una «evaluación de razonamiento de contexto largo mínima, sintética y no filtrada para modelos de lenguaje grandes». Miguel Ángel se basa en la analogía de un escultor que corta piezas de mármol irrelevantes para revelar la estructura subyacente. El punto de referencia se centra en evaluar la capacidad del modelo para comprender las relaciones y la estructura de la información dentro de su ventana de contexto, en lugar de simplemente recuperar hechos aislados. El punto de referencia consta de tres tareas principales: Lista latente: el modelo debe procesar una larga secuencia de operaciones realizadas en una lista de Python, filtrar declaraciones irrelevantes o redundantes y determinar el estado final de la lista. «La lista latente mide la capacidad de un modelo para rastrear las propiedades de una estructura de datos latentes a lo largo de un flujo de instrucciones de código», escriben los investigadores. Resolución de correferencia de múltiples rondas (MRCR): el modelo debe producir partes de una larga conversación entre un usuario y un LLM. Esto requiere que el modelo comprenda la estructura de la conversación y resuelva referencias a turnos anteriores, incluso cuando la conversación contenga elementos confusos o que distraigan. «MRCR mide la capacidad del modelo para comprender el orden en texto natural, distinguir entre borradores de escritura similares y reproducir una parte específica del contexto anterior sujeto a consultas difíciles», escriben los investigadores. “No lo sé” (IDK): Al modelo se le presenta una larga historia y se le pide que responda preguntas de opción múltiple sobre ella. Para algunas preguntas, el contexto no contiene la respuesta y el modelo debe ser capaz de reconocer los límites de su conocimiento y responder con un «no sé». «IDK mide la capacidad del modelo para comprender si sabe lo que no sabe en función del contexto presentado», escriben los investigadores. Consultas de estructura latente Las tareas de Michelangelo se basan en un marco novedoso llamado Consultas de estructura latente (LSQ). LSQ proporciona un enfoque general para diseñar evaluaciones de razonamiento de contexto prolongado que pueden extenderse a longitudes arbitrarias. También puede probar la comprensión del modelo de información implícita en lugar de recuperar hechos simples. LSQ se basa en la síntesis de datos de prueba para evitar los problemas de que los datos de prueba se filtren en el corpus de entrenamiento. «Al exigir que el modelo extraiga información de estructuras en lugar de valores de claves (esculturas de mármol en lugar de agujas de pajares), podemos probar más profundamente la comprensión del contexto del modelo de lenguaje más allá de la recuperación», escriben los investigadores. LSQ tiene tres diferencias clave con otros enfoques para evaluar LLM de contexto largo. Primero, ha sido diseñado explícitamente para evitar fallas de cortocircuito en evaluaciones que van más allá de las tareas de recuperación. En segundo lugar, especifica una metodología para aumentar la complejidad de las tareas y la duración del contexto de forma independiente. Y, por último, es lo suficientemente general como para abarcar una amplia gama de tareas de razonamiento. Las tres pruebas utilizadas en Miguel Ángel cubren la interpretación de códigos y el razonamiento sobre textos vagamente escritos. «El objetivo es que las evaluaciones de contexto prolongado más allá del razonamiento implementadas siguiendo el LSQ conduzcan a menos escenarios en los que una evaluación propuesta se reduzca a resolver una tarea de recuperación», dijo Vodrahalli. Evaluación de modelos de frontera en Miguel Ángel Los investigadores evaluaron diez LLM de frontera en Miguel Ángel, incluidas diferentes variantes de Gemini, GPT-4 y 4o, y Claude. Probaron los modelos en contextos de hasta 1 millón de tokens. Los modelos Gemini obtuvieron mejores resultados en MRCR, los modelos GPT sobresalieron en Latent List y Claude 3.5 Sonnet logró las puntuaciones más altas en IDK. Sin embargo, todos los modelos mostraron una caída significativa en el rendimiento a medida que aumentaba la complejidad de las tareas de razonamiento, lo que sugiere que incluso con ventanas de contexto muy largas, los LLM actuales todavía tienen espacio para mejorar su capacidad de razonar sobre grandes cantidades de información. Los LLM de Frontier luchan con el razonamiento en ventanas de contexto largo (fuente: arxiv) «Los modelos de Frontier tienen espacio para mejorar todas las primitivas de razonamiento más allá de la recuperación (Lista latente, MRCR, IDK) que investigamos en Miguel Ángel», dijo Vodrahalli. “Los diferentes modelos de frontera tienen diferentes fortalezas y debilidades: cada clase se desempeña bien en diferentes rangos de contexto y en diferentes tareas. Lo que parece ser universal en todos los modelos es la caída inicial en el rendimiento en tareas de razonamiento largas”. Las evaluaciones de Miguel Ángel capturan primitivas básicas necesarias para el razonamiento en contextos prolongados y los hallazgos pueden tener implicaciones importantes para las aplicaciones empresariales. Por ejemplo, en aplicaciones del mundo real donde el modelo no puede confiar en su conocimiento previo al entrenamiento y debe realizar un razonamiento de múltiples saltos en muchas ubicaciones dispares en contextos muy largos, Vodrahalli espera que el rendimiento disminuya a medida que crece la longitud del contexto. «Esto es particularmente cierto si los documentos contienen mucha información que es irrelevante para la tarea en cuestión, lo que dificulta que un modelo pueda distinguir fácilmente qué información es relevante o no», dijo Vodrahalli. «También es probable que los modelos sigan funcionando bien en tareas en las que toda la información relevante para responder una pregunta se encuentra en un lugar general del documento». Los investigadores continuarán agregando más evaluaciones de Michelangelo y esperan que estén disponibles directamente para que otros investigadores puedan probar sus modelos en ellos. VB Daily ¡Manténgase informado! Reciba las últimas noticias en su bandeja de entrada diariamente. Al suscribirse, acepta los Términos de servicio de VentureBeat. Gracias por suscribirte. Consulte más boletines de VB aquí. Se produjo un error.