La nueva teoría de AWS sobre el diseño de un mecanismo automatizado de evaluación de RAG no solo podría facilitar el desarrollo de aplicaciones basadas en IA generativa, sino que también ayudaría a las empresas a reducir el gasto en infraestructura informática. RAG o generación aumentada de recuperación es una de las varias técnicas utilizadas para abordar las alucinaciones, que son respuestas arbitrarias o sin sentido generadas por los modelos de lenguaje grandes (LLM) cuando aumentan en complejidad. RAG fundamenta el LLM al alimentar el modelo con datos de una fuente de conocimiento externa o un repositorio para mejorar la respuesta a una consulta en particular. Hay otras formas de manejar las alucinaciones, como el ajuste fino y la ingeniería rápida, pero el analista principal de Forrester, Charlie Dai, señaló que RAG se ha convertido en un enfoque crítico para que las empresas reduzcan las alucinaciones en los LLM e impulsen los resultados comerciales de la IA generativa. Sin embargo, Dai señaló que las canalizaciones de RAG requieren una variedad de bloques de construcción y prácticas de ingeniería sustanciales, y las empresas buscan cada vez más enfoques de evaluación robustos y automatizados para acelerar sus iniciativas de RAG, por lo que el nuevo documento de AWS podría interesarles. El enfoque establecido por los investigadores de AWS en el documento podría ayudar a las empresas a construir modelos de lenguaje más eficientes.y soluciones rentables en torno a RAG que no dependan de costosos esfuerzos de ajuste fino, flujos de trabajo de RAG ineficientes y exceso de aprendizaje en contexto (es decir, maximizar grandes ventanas de contexto), dijo el analista jefe de Omdia, Bradley Shimmin. ¿Qué es el mecanismo de evaluación automatizada de RAG de AWS? El artículo titulado «Evaluación automatizada de modelos de lenguaje aumentados por recuperación con generación de exámenes específicos de tareas», que se presentará en la conferencia ICML 2024 en julio, propone un proceso de generación de exámenes automatizado, mejorado por la teoría de respuesta a los ítems (IRT), para evaluar la precisión fáctica de los modelos RAG en tareas específicas. La teoría de respuesta a los ítems, también conocida como teoría de respuesta latente, generalmente se usa en psicometría para determinar la relación entre características no observables y observables, como resultados o respuestas, con la ayuda de una familia de modelos matemáticos. La evaluación de RAG, según los investigadores de AWS, se lleva a cabo puntuándolo en un examen sintético autogenerado compuesto de preguntas de opción múltiple basadas en el corpus de documentos asociados con una tarea en particular. «Aprovechamos la teoría de respuesta a los ítems para estimar la calidad de un examen y su capacidad informativa sobre la precisión específica de la tarea. La IRT también proporciona una forma natural de mejorar iterativamente el examen eliminando las preguntas del examen que no son lo suficientemente informativas sobre la capacidad de un modelo», dijeron los investigadores. El nuevo proceso de evaluación de RAG se probó en cuatro nuevas tareas abiertas de preguntas y respuestas basadas en resúmenes de Arxiv, preguntas de StackExchange, guías de resolución de problemas de AWS DevOps y presentaciones ante la SEC, explicaron, y agregaron que los experimentos revelaron conocimientos más generales sobre los factores que afectan el rendimiento de RAG, como el tamaño, el mecanismo de recuperación, las indicaciones y el ajuste fino. Enfoque prometedor El enfoque analizado en el documento de AWS tiene varios puntos prometedores, incluido el de abordar el desafío de las canalizaciones especializadas que requieren pruebas especializadas, según el experto en inteligencia artificial de la firma de seguridad de datos Immuta, Joe Regensburger. “Esto es clave, ya que la mayoría de los procesos dependerán de LLM comerciales o de código abierto listos para usar. Estos modelos no habrán sido entrenados en conocimientos específicos del dominio, por lo que los conjuntos de pruebas convencionales no serán útiles”, explicó Regensburger. Sin embargo, Regensburger señaló que, aunque el enfoque es prometedor, aún deberá evolucionar en la parte de generación de exámenes, ya que el mayor desafío no es generar una pregunta o la respuesta adecuada, sino generar preguntas distractoras lo suficientemente desafiantes. “Los procesos automatizados, en general, tienen dificultades para rivalizar con el nivel de preguntas generadas por humanos, particularmente en términos de preguntas distractoras. Como tal, es el proceso de generación de distractores el que podría beneficiarse de una discusión más detallada”, dijo Regensburger, comparando las preguntas generadas automáticamente con las preguntas generadas por humanos establecidas en los exámenes AP (ubicación avanzada). Las preguntas en los exámenes AP son establecidas por expertos en el campo que siguen estableciendo, revisando e iterando preguntas mientras configuran el examen, según Regensburger. Es importante destacar que ya existen pruebas basadas en exámenes para LLM. “Una parte de la documentación de ChatGPT mide el rendimiento del modelo frente a una batería de pruebas estandarizadas”, dijo Regensburger, y agregó que el documento de AWS extiende la premisa de OpenAI al sugerir que se podría generar un examen frente a bases de conocimiento especializadas, a menudo privadas. “En teoría, esto evaluará cómo una canalización RAG podría generalizarse a un conocimiento nuevo y especializado”. Al mismo tiempo, Shimmin de Omdia señaló que varios proveedores, incluidos AWS, Microsoft, IBM y Salesforce, ya ofrecen herramientas o marcos enfocados en optimizar y mejorar las implementaciones RAG que van desde herramientas de automatización básicas como LlamaIndex hasta herramientas avanzadas como GraphRAG, recientemente lanzado por Microsoft. RAG optimizado frente a modelos de lenguaje muy grandes La elección de los algoritmos de recuperación adecuados a menudo conduce a mayores ganancias de rendimiento que simplemente usar un LLM más grande, en el que el último enfoque podría ser costoso, señalaron los investigadores de AWS en el documento. Si bien los avances recientes como el «almacenamiento en caché de contexto» con Google Gemini Flash facilitan que las empresas eviten la necesidad de crear procesos complejos y meticulosos de tokenización, fragmentación y recuperación como parte de la canalización RAG, este enfoque puede exigir un alto costo en la inferencia de recursos computacionales para evitar la latencia, dijo Shimmin de Omdia. «Técnicas como Item Response Theory de AWS prometen ayudar “Uno de los aspectos más complicados de RAG es medir la eficacia de la información recuperada antes de enviarla al modelo”, afirmó Shimmin, y agregó que con estas optimizaciones listas, las empresas pueden optimizar mejor su sobrecarga de inferencia al enviar la mejor información a un modelo en lugar de arrojarle todo al modelo a la vez. Por otro lado, el tamaño del modelo es solo un factor que influye en el rendimiento de los modelos base, afirmó Dai de Forrester. “Las empresas deben adoptar un enfoque sistemático para la evaluación del modelo base, que abarque las capacidades técnicas (modalidad del modelo, rendimiento del modelo, alineación del modelo y adaptación del modelo), las capacidades comerciales (soporte de código abierto, rentabilidad y disponibilidad local) y las capacidades del ecosistema (ingeniería rápida, soporte de RAG, soporte de agente, complementos y API, y ModelOps)”, explicó Dai. Copyright © 2024 IDG Communications, Inc.