Un resumen del proceso de evaluación comparativa propuesto por Amazon para las implementaciones RAG de IA generativa. Amazon AWSSe supone que este año será el año en que la inteligencia artificial generativa (GenAI) despegue en la empresa, según muchos observadores. Una de las formas en que esto podría suceder es a través de generación aumentada de recuperación (RAG), una metodología mediante la cual un modelo de lenguaje grande de IA se conecta a una base de datos que contiene contenido específico de un dominio, como archivos de la empresa. Sin embargo, RAG es una tecnología emergente con sus inconvenientes. Además: Haga espacio para RAG: cómo está cambiando el equilibrio de poder de Gen AI. Por esa razón, los investigadores de AWS de Amazon proponen en un nuevo artículo establecer una serie de puntos de referencia que probarán específicamente qué tan bien RAG puede responder preguntas sobre contenido de dominio específico. «Nuestro método es una estrategia automatizada, rentable, interpretable y sólida para seleccionar los componentes óptimos para un sistema RAG», escriben el autor principal Gauthier Guinet y su equipo en el trabajo «Evaluación automatizada de modelos de lenguaje de recuperación aumentada con tareas». Specific Exam Generation», publicado en el servidor de preimpresión arXiv. El artículo se presentará en la 41ª Conferencia Internacional sobre Aprendizaje Automático, una conferencia de IA que se llevará a cabo del 21 al 27 de julio en Viena. El problema básico, explica Guinet y su equipo, es que si bien existen muchos puntos de referencia para comparar la capacidad de varios modelos de lenguaje grande (LLM) en numerosas tareas, en el área de RAG, específicamente, no existe un enfoque «canónico» para la medición que es «una evaluación integral de tareas específicas» de las muchas cualidades que importan, incluidas la «veracidad» y la «actualidad». Los autores creen que su método automatizado crea cierta uniformidad: «Al generar automáticamente exámenes de opción múltiple adaptados al corpus de documentos asociados con Para cada tarea, nuestro enfoque permite una puntuación estandarizada, escalable e interpretable de diferentes sistemas RAG». Para emprender esa tarea, los autores generan pares de preguntas y respuestas basándose en material de cuatro dominios: los documentos de solución de problemas de AWS sobre el tema de DevOps ; resúmenes de artículos científicos del servidor de preimpresión arXiv; preguntas sobre StackExchange; y presentaciones de la Comisión de Bolsa y Valores de EE. UU., el principal regulador de las empresas que cotizan en bolsa. Además: la conexión de IA generativa a datos médicos mejoró la utilidad para los médicos. Luego, diseñan pruebas de opción múltiple para que los LLM evalúen qué tan cerca está cada LLM de lo correcto. respuesta. Someten a estos exámenes a dos familias de LLM de código abierto: Mistral, de la empresa francesa del mismo nombre, y Llama de Meta Properties. Prueban los modelos en tres escenarios. El primero es un escenario de «libro cerrado», donde el LLM no tiene ningún acceso a los datos de RAG y tiene que confiar en sus «parámetros» neuronales previamente entrenados (o «pesos») para llegar a la respuesta. La segunda es lo que se llama la forma «Oracle» de RAG, donde el LLM tiene acceso al documento exacto utilizado para generar una pregunta, la verdad fundamental, como se la conoce. La tercera forma es la «recuperación clásica», donde el modelo tiene que busque en todo el conjunto de datos buscando el contexto de una pregunta, utilizando una variedad de algoritmos. Se utilizan varias fórmulas RAG populares, incluida una introducida en 2019 por académicos de la Universidad de Tel-Aviv y el Instituto Allen de Inteligencia Artificial, MultiQA; y un enfoque más antiguo pero muy popular para la recuperación de información llamado BM25. Además: Microsoft Azure obtiene ‘Modelos como servicio’, ofertas RAG mejoradas para IA generativa empresarial. Luego ejecutan los exámenes y cuentan los resultados, que son lo suficientemente complejos como para llenar toneladas de gráficos. y tablas sobre las fortalezas y debilidades relativas de los LLM y los diversos enfoques RAG. Los autores incluso realizan un metanálisis de las preguntas de sus exámenes, para evaluar su utilidad, basándose en la conocida «taxonomía de Bloom» del campo de la educación. Lo que importa incluso más que los datos de los exámenes son los hallazgos generales que pueden extraerse. Esto es cierto para RAG, independientemente de los detalles de implementación. Un hallazgo amplio es que mejores algoritmos RAG pueden mejorar un LLM más que, por ejemplo, hacerlo más grande. «La elección correcta del método de recuperación a menudo puede conducir a mejoras de rendimiento que superan las obtenidas simplemente por elegir LLM más grandes», escriben. Esto es importante dadas las preocupaciones sobre la creciente intensidad de recursos de GenAI. Si puedes hacer más con menos, es una vía valiosa para explorar. También sugiere que la sabiduría convencional en IA en este momento, de que escalar siempre es mejor, no es del todo cierta cuando se trata de resolver problemas concretos. Además: la IA generativa es un nuevo vector de ataque que pone en peligro a las empresas, dice el CTO de CrowdStrike. Igual de importante, los autores Descubra que si el algoritmo RAG no funciona correctamente, puede degradar el rendimiento del LLM en comparación con la versión simple, de libro cerrado y sin RAG. «Un componente del recuperador mal alineado puede conducir a una precisión peor que no tener ningún tipo de recuperación», así lo expresaron Guinet y su equipo.