En la era de la IA generativa, los modelos de lenguaje de gran tamaño (LLM, por sus siglas en inglés) están revolucionando la forma en que se procesa la información y se responden las preguntas en diversas industrias. Sin embargo, estos modelos presentan su propio conjunto de desafíos, como la generación de contenido que puede no ser preciso (alucinación), la dependencia de conocimientos obsoletos y el empleo de rutas de razonamiento opacas e intrincadas que a menudo no son rastreables. Para abordar estos problemas, la generación aumentada por recuperación (RAG, por sus siglas en inglés) ha surgido como un enfoque innovador que combina las capacidades inherentes de los LLM con el contenido rico y siempre actualizado de bases de datos externas. Esta combinación no solo amplifica el rendimiento del modelo a la hora de brindar respuestas precisas y confiables, sino que también mejora su capacidad para dar explicaciones coherentes, rendición de cuentas y adaptabilidad, especialmente en tareas que requieren un alto nivel de conocimiento. La adaptabilidad de los RAG permite la actualización constante de la información de la que se nutre, lo que garantiza que las respuestas estén actualizadas y que incorporen conocimientos específicos del dominio, abordando directamente el meollo de las limitaciones de los LLM. RAG fortalece la aplicación de la IA generativa en todos los segmentos de negocio y casos de uso en toda la empresa, por ejemplo, generación de código, servicio al cliente, documentación de productos, soporte de ingeniería y gestión de conocimiento interno. Aborda astutamente uno de los principales desafíos en la aplicación de los LLM a las necesidades empresariales: proporcionar conocimiento relevante y preciso de vastas bases de datos empresariales a los modelos sin la necesidad de entrenar o ajustar los LLM. Al integrar datos específicos del dominio, RAG garantiza que las respuestas de los modelos de IA generativa no solo estén bien informadas, sino que también se adapten con precisión al contexto en cuestión. También permite a las empresas mantener el control sobre sus datos confidenciales o secretos y, eventualmente, desarrollar aplicaciones de IA generativa adaptables, controlables y transparentes. Esto se alinea bien con nuestro objetivo de dar forma a un mundo mejorado por la IA en appliedAI Initiative, ya que enfatizamos constantemente el aprovechamiento de la IA generativa como una herramienta constructiva en lugar de simplemente lanzarla al mercado. Al centrarse en la creación de valor real, RAG alimenta este espíritu, asegurando una mayor precisión, confiabilidad, capacidad de control, información respaldada por referencias y una aplicación integral de IA generativa que alienta a los usuarios a aprovechar todo su potencial, de una manera que es a la vez informada e innovadora. Opciones de RAG: elegir entre personalización y conveniencia A medida que las empresas profundizan en RAG, se enfrentan a la decisión fundamental de hacer o comprar para realizar aplicaciones. ¿Debería optar por la facilidad de productos fácilmente disponibles o la flexibilidad a medida de una solución personalizada? Las ofertas de mercado específicas de RAG ya son ricas en gigantes como Knowledge Retrieval Assistant de OpenAI, Azure AI Search, Google Vertex AI Search y Knowledge Bases para Amazon Bedrock, que atienden un amplio conjunto de necesidades con la conveniencia de una funcionalidad lista para usar integrada en un servicio de extremo a extremo. Junto con estos, Nvidia NeMo Retriever o Deepset Cloud ofrecen un camino en algún lugar en el medio: robusto y rico en funciones, pero capaz de personalización. Como alternativa, las organizaciones pueden embarcarse en la creación de soluciones desde cero o modificar los marcos de código abierto existentes, como LangChain, LlamaIndex o Haystack, una ruta que, si bien requiere más trabajo, promete un producto ajustado a los requisitos específicos. La dicotomía entre conveniencia y capacidad de personalización es profunda y consecuente, lo que da lugar a compensaciones comunes para las decisiones de fabricación o compra. Dentro de la IA generativa, los dos aspectos, transparencia y capacidad de control, requieren una consideración adicional debido a ciertas propiedades inherentes que introducen riesgos como alucinaciones y datos falsos en las aplicaciones. Las soluciones y productos prediseñados ofrecen una atractiva simplicidad plug-and-play que puede acelerar la implementación y reducir las complejidades técnicas. Son una propuesta tentadora para quienes desean dar el salto rápido al espacio RAG. Sin embargo, los productos de talla única a menudo no logran satisfacer las complejidades matizadas inherentes a los dominios o empresas individuales, ya sean las sutilezas del conocimiento de fondo específico de la comunidad, las convenciones y las expectativas contextuales, o los estándares utilizados para juzgar la calidad de los resultados de recuperación. Los marcos de código abierto se destacan por su flexibilidad incomparable, lo que brinda a los desarrolladores la libertad de incorporar funciones avanzadas, como recuperadores de ontología de gráficos de conocimiento internos de la empresa, o ajustar y calibrar las herramientas para optimizar el rendimiento o garantizar la transparencia y la explicabilidad, así como alinear el sistema con objetivos comerciales especializados. Por lo tanto, la elección entre conveniencia y personalización no es solo una cuestión de preferencia, sino una decisión estratégica que podría definir la trayectoria de las capacidades RAG de una empresa. Obstáculos RAG: desafíos a lo largo del viaje de industrialización RAG El viaje hacia la industrialización de soluciones RAG presenta varios desafíos importantes a lo largo del proceso de desarrollo de RAG. Estos deben abordarse para que se implementen de manera efectiva en escenarios del mundo real. Básicamente, un proceso de desarrollo de RAG consta de cuatro etapas estándar: pre-recuperación, recuperación, aumento y generación, y evaluación. Cada una de estas etapas presenta ciertos desafíos que requieren decisiones de diseño, componentes y configuraciones específicos. Al principio, determinar el tamaño y la estrategia de fragmentación óptimos resulta una tarea nada trivial, en particular cuando se enfrenta el problema del arranque en frío, en el que no se dispone de un conjunto de datos de evaluación inicial para orientar estas decisiones. Un requisito fundamental para que RAG funcione de manera eficaz es la calidad de las incrustaciones de documentos. Garantizar la solidez de estas incrustaciones desde el principio es fundamental, pero plantea un obstáculo sustancial, al igual que la detección y mitigación del ruido y las inconsistencias dentro de los documentos de origen. Obtener documentos contextualmente relevantes de manera óptima es otro nudo gordiano que hay que desenredar, especialmente cuando los algoritmos de búsqueda vectorial ingenuos no logran proporcionar los contextos deseados y se hace necesaria una recuperación multifacética para consultas complejas o matizadas. La generación de respuestas precisas y fiables a partir de los datos recuperados introduce complejidades adicionales. Por un lado, el sistema RAG necesita determinar dinámicamente la cantidad correcta (top-K) de documentos relevantes para atender la diversidad de preguntas que podría encontrar, un problema que no tiene una solución universal. En segundo lugar, más allá de la recuperación, garantizar que las respuestas generadas permanezcan fielmente basadas en la información de origen es fundamental para mantener la integridad y utilidad del resultado. Por último, a pesar de la sofisticación de los sistemas RAG, la posibilidad de que errores y sesgos residuales se infiltren en las respuestas sigue siendo una preocupación pertinente. Abordar estos sesgos requiere una atención diligente tanto al diseño de los algoritmos como a la curación de los conjuntos de datos subyacentes para evitar la perpetuación de tales problemas en las respuestas del sistema. Futuros RAG: trazando el rumbo hacia agentes inteligentes mejorados con RAG El discurso reciente dentro de los círculos académicos e industriales ha estado animado por los esfuerzos para mejorar los sistemas RAG, lo que llevó al advenimiento de lo que ahora se conoce como RAG avanzado o modular. Estos sistemas evolucionados incorporan una serie de técnicas sofisticadas orientadas a amplificar su efectividad. Un avance notable es la integración del filtrado y el alcance de metadatos, mediante el cual la información auxiliar, como fechas o resúmenes de capítulos, se codifica dentro de fragmentos de texto. Esto no sólo mejora la capacidad del recuperador para navegar por corpus documentales extensos, sino que también refuerza la evaluación de la congruencia con los metadatos, optimizando esencialmente el proceso de comparación. Además, las implementaciones avanzadas de RAG han adoptado paradigmas de búsqueda híbridos, seleccionando dinámicamente entre búsquedas basadas en palabras clave, semánticas y vectoriales para alinearse con la naturaleza de las consultas de los usuarios y las características idiosincrásicas de los datos disponibles. En el ámbito del procesamiento de consultas, una innovación crucial es el enrutador de consultas, que discierne la tarea posterior más pertinente y designa el repositorio óptimo del que obtener información. En términos de ingeniería de consultas, se emplea un arsenal de técnicas para forjar un vínculo más estrecho entre la entrada del usuario y el contenido del documento, a veces utilizando LLM para crear contextos complementarios, citas, críticas o respuestas hipotéticas que mejoran la precisión de la comparación de documentos. Estos sistemas incluso han progresado hacia estrategias de recuperación adaptativa, donde los LLM señalan de manera preventiva los momentos y contenidos óptimos para consultar, asegurando la relevancia y la puntualidad temporal en la etapa de recuperación de la información. Además, también se han integrado en los sistemas RAG métodos de razonamiento sofisticados, como las técnicas de cadena de pensamiento o de árbol de pensamiento. La cadena de pensamiento (CoT) simula un proceso de pensamiento generando una serie de pasos intermedios o razonamiento, mientras que el árbol de pensamiento (ToT) construye una estructura ramificada de ideas y evalúa diferentes opciones para llegar a conclusiones deliberadas y precisas. Los enfoques de vanguardia como RAT (pensamientos aumentados por recuperación) fusionan los conceptos de RAG con CoT, mejorando la capacidad del sistema para recuperar información relevante y razonar lógicamente. Además, RAGAR (razonamiento aumentado por RAG) representa un paso aún más avanzado, incorporando tanto CoT como ToT junto con una serie de pasos de autoverificación frente a los recursos web externos más actuales. Además, RAGAR amplía sus capacidades para manejar entradas multimodales, procesando información visual y textual simultáneamente. Esto eleva aún más los sistemas RAG a ser marcos altamente confiables y creíbles para la recuperación y síntesis de información. Los desarrollos en desarrollo como RAT y RAGAR armonizarán aún más las técnicas avanzadas de recuperación de información y el razonamiento profundo que ofrecen los LLM sofisticados, lo que establecerá aún más a RAG como piedra angular de las soluciones de inteligencia empresarial de próxima generación. La precisión y la facticidad de la recuperación de información refinada, combinadas con la destreza analítica, de razonamiento y de agente de los LLM, anuncian una era de agentes inteligentes diseñados a medida para aplicaciones empresariales complejas, desde la toma de decisiones hasta la planificación estratégica. Mejorados con RAG, estos agentes estarán equipados para navegar por las demandas matizadas de los contextos empresariales estratégicos. Paul Yu-Chun Chang es experto sénior en IA, modelos básicos (modelos de lenguaje grande) en appliedAI Initiative GmbH. Bernhard Pflugfelder es director del Laboratorio de Innovación (GenAI) en appliedAI Initiative GmbH. — Generative AI Insights ofrece un lugar para que los líderes tecnológicos, incluidos los proveedores y otros colaboradores externos, exploren y discutan los desafíos y las oportunidades de la inteligencia artificial generativa. La selección es muy variada, desde análisis profundos de la tecnología hasta estudios de casos y opiniones de expertos, pero también subjetiva, basada en nuestro criterio sobre qué temas y tratamientos serán más útiles para la audiencia técnicamente sofisticada de InfoWorld. InfoWorld no acepta material de marketing para su publicación y se reserva el derecho de editar todo el contenido aportado. Póngase en contacto con doug_dineley@foundryco.com.