Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder en la industria. Más información La generación de recuperación aumentada (RAG) se ha convertido en un método popular para basar modelos de lenguajes grandes (LLM) en conocimiento externo. Los sistemas RAG suelen utilizar un modelo de incrustación para codificar documentos en un corpus de conocimiento y seleccionar aquellos que son más relevantes para la consulta del usuario. Sin embargo, los métodos de recuperación estándar a menudo no tienen en cuenta detalles específicos del contexto que pueden marcar una gran diferencia en los conjuntos de datos específicos de la aplicación. En un nuevo artículo, investigadores de la Universidad de Cornell presentan las “incrustaciones de documentos contextuales”, una técnica que mejora el rendimiento de los modelos de incrustación haciéndolos conscientes del contexto en el que se recuperan los documentos. Las limitaciones de los codificadores bi El enfoque más común para la recuperación de documentos en RAG es utilizar «codificadores bi», donde un modelo de incrustación crea una representación fija de cada documento y lo almacena en una base de datos vectorial. Durante la inferencia, la incrustación de la consulta se calcula y se compara con las incrustaciones almacenadas para encontrar los documentos más relevantes. Los codificadores bi-codificadores se han convertido en una opción popular para la recuperación de documentos en sistemas RAG debido a su eficiencia y escalabilidad. Sin embargo, los bicodificadores a menudo tienen dificultades con conjuntos de datos matizados y específicos de la aplicación porque están entrenados en datos genéricos. De hecho, cuando se trata de corpus de conocimiento especializados, pueden no alcanzar los métodos estadísticos clásicos como el BM25 en determinadas tareas. «Nuestro proyecto comenzó con el estudio de BM25, un algoritmo de la vieja escuela para la recuperación de texto», dijo a VentureBeat John (Jack) Morris, estudiante de doctorado en Cornell Tech y coautor del artículo. «Realizamos un pequeño análisis y vimos que cuanto más fuera de dominio está el conjunto de datos, más supera BM25 a las redes neuronales». BM25 logra su flexibilidad calculando el peso de cada palabra en el contexto del corpus que está indexando. Por ejemplo, si una palabra aparece en muchos documentos del corpus de conocimiento, su peso se reducirá, incluso si es una palabra clave importante en otros contextos. Esto permite que BM25 se adapte a las características específicas de diferentes conjuntos de datos. «Los modelos tradicionales de recuperación densa basados ​​en redes neuronales no pueden hacer esto porque simplemente establecen pesos una vez, basándose en los datos de entrenamiento», dijo Morris. «Intentamos diseñar un enfoque que pudiera solucionar este problema». Incrustaciones de documentos contextuales Incrustaciones de documentos contextuales Crédito: arXiv Los investigadores de Cornell proponen dos métodos complementarios para mejorar el rendimiento de los bicodificadores añadiendo la noción de contexto a las incrustaciones de documentos. «Si piensa en la recuperación como una ‘competencia’ entre documentos para ver cuál es más relevante para una consulta de búsqueda determinada, usamos ‘contexto’ para informar al codificador sobre los otros documentos que estarán en la competencia», dijo Morris. El primer método modifica el proceso de entrenamiento del modelo de incorporación. Los investigadores utilizan una técnica que agrupa documentos similares antes de entrenar el modelo de incrustación. Luego utilizan el aprendizaje contrastivo para entrenar al codificador para que pueda distinguir documentos dentro de cada grupo. El aprendizaje contrastivo es una técnica no supervisada en la que se entrena al modelo para distinguir entre ejemplos positivos y negativos. Al verse obligado a distinguir entre documentos similares, el modelo se vuelve más sensible a diferencias sutiles que son importantes en contextos específicos. El segundo método modifica la arquitectura del bicodificador. Los investigadores aumentan el codificador con un mecanismo que le da acceso al corpus durante el proceso de incorporación. Esto permite que el codificador tenga en cuenta el contexto del documento al generar su incrustación. La arquitectura aumentada funciona en dos etapas. Primero, calcula una incrustación compartida para el clúster al que pertenece el documento. Luego, combina esta incrustación compartida con las características únicas del documento para crear una incrustación contextualizada. Este enfoque permite que el modelo capture tanto el contexto general del grupo de documentos como los detalles específicos que lo hacen único. La salida sigue siendo una incrustación del mismo tamaño que un bicodificador normal, por lo que no requiere ningún cambio en el proceso de recuperación. El impacto de las incrustaciones de documentos contextuales Los investigadores evaluaron su método en varios puntos de referencia y descubrieron que superó consistentemente a los codificadores bicodificadores estándar de tamaños similares, especialmente en entornos fuera del dominio donde los conjuntos de datos de entrenamiento y prueba son significativamente diferentes. «Nuestro modelo debería ser útil para cualquier dominio que sea materialmente diferente de los datos de entrenamiento, y puede considerarse como un reemplazo barato para ajustar los modelos de integración específicos de un dominio», dijo Morris. Las incorporaciones contextuales se pueden utilizar para mejorar el rendimiento de los sistemas RAG en diferentes dominios. Por ejemplo, si todos sus documentos comparten una estructura o contexto, un modelo de incrustación normal desperdiciaría espacio en sus incrustaciones al almacenar esta estructura o información redundante. «Las incrustaciones contextuales, por otro lado, pueden ver en el contexto circundante que esta información compartida no es útil y desecharla antes de decidir exactamente qué almacenar en la incrustación», dijo Morris. Los investigadores han publicado una versión pequeña de su modelo de incrustación de documentos contextuales (cde-small-v1). Se puede utilizar como reemplazo directo de herramientas populares de código abierto como HuggingFace y SentenceTransformers para crear incrustaciones personalizadas para diferentes aplicaciones. Morris dice que las incrustaciones contextuales no se limitan a modelos basados ​​en texto y pueden extenderse a otras modalidades, como las arquitecturas de texto a imagen. También hay margen para mejorarlos con algoritmos de agrupamiento más avanzados y evaluar la eficacia de la técnica a escalas mayores. VB Daily ¡Manténgase informado! Reciba las últimas noticias en su bandeja de entrada diariamente. Al suscribirse, acepta los Términos de servicio de VentureBeat. Gracias por suscribirte. Consulte más boletines de VB aquí. Se produjo un error.