Mitigación de las alucinaciones con IA: dos cerebros son mejores que uno

A medida que la IA generativa (genAI) continúa siendo ampliamente utilizada por el público y diversas empresas, su adopción a veces está plagada de errores, problemas de infracción de derechos de autor y alucinaciones absolutas, lo que socava la confianza en su precisión. Un estudio de la Universidad de Stanford encontró que genAI comete errores cuando respondiendo preguntas legales el 75% del tiempo. “Por ejemplo”, encontró el estudio, “en una tarea que mide la relación de precedencia entre dos diferentes [court] En muchos casos, la mayoría de los LLM no funcionan mejor que las conjeturas aleatorias”. El problema es que los grandes modelos de lenguaje (LLM) detrás de la tecnología genAI, como GPT-4 de OpenAI, Llama 2 de Meta y PaLM 2 de Google, no solo son amorfos con parámetros no específicos, sino que también son entrenados por seres humanos falibles que tienen prejuicios innatos. Los LLM se han caracterizado como loros estocásticos: a medida que crecen, se vuelven más aleatorios en sus respuestas conjeturales o aleatorias. Estos “motores de predicción de la siguiente palabra” continúan repitiendo como loros lo que les han enseñado, pero sin un marco lógico. Un método para reducir las alucinaciones y otros errores relacionados con la IA es la Generación Aumentada de Recuperación o “RAG”, un método para crear una imagen más personalizada. Modelo genAI que permite respuestas más precisas y específicas a las consultas. Pero RAG no limpia el desorden de genAI porque todavía no existen reglas lógicas para su razonamiento. En otras palabras, el procesamiento del lenguaje natural de genAI no tiene reglas de inferencia transparentes para obtener conclusiones (resultados) confiables. Lo que se necesita, argumentan algunos, es un “lenguaje formal” o una secuencia de declaraciones (reglas o barreras de seguridad) para garantizar conclusiones confiables en cada paso del camino hacia la respuesta final que proporciona la genAI. El procesamiento del lenguaje natural, en ausencia de un sistema formal para una semántica precisa, produce significados que son subjetivos y carecen de una base sólida. Pero con monitoreo y evaluación, genAI puede producir respuestas mucho más precisas. «En pocas palabras, es similar al acuerdo sencillo de que 2+2 es igual a 4. No hay ambigüedad con esa respuesta final de 4», escribió David Ferrucci, fundador y director ejecutivo de Elemental Cognition, en una publicación reciente de un blog. Ferrucci es una computadora científico que trabajó como investigador principal de la supercomputadora Watson de IBM, el procesador de lenguaje natural que ganó el concurso de televisión Jeopardy! En 2011, un ejemplo reciente de genAI que se extravió enormemente es el de la nueva herramienta Gemini de Google, que tomó indicaciones de texto del usuario y creó imágenes que estaban claramente sesgadas hacia una determinada visión sociopolítica. Los mensajes de texto del usuario solicitan imágenes de nazis generados por nazis negros y asiáticos. Cuando se le pidió que hiciera un dibujo del Papa, Gemini respondió creando un Papa asiático y un Papa negro. Google se vio obligado a desconectar la plataforma para abordar los problemas. Pero los problemas de Géminis no son únicos. Para abordar problemas como el de Géminis, Elemental Cognition desarrolló algo llamado «razonador neurosimbólico». El razonador, llamado Braid, construye un modelo lógico del lenguaje que está leyendo de un LLM basado en entrevistas realizadas por los empleados de Ferrucci. “Entrevistamos a los analistas de negocios y les decimos: ‘Déjenme asegurarme de que entiendo su problema. Repasemos las diversas reglas comerciales y restricciones y autorizaciones de relaciones que son importantes para usted’”, dijo Ferrucci. «Entonces lo que se obtiene es un modelo de conocimiento formal ejecutado por este razonador lógico formal que sabe cómo resolver estos problemas. «En pocas palabras, usamos redes neuronales para lo que son buenas, luego agregamos lógica, transparencia, explicabilidad y aprendizaje colaborativo”, dijo Ferrucci. “Si intenta hacer esto de principio a fin con un LLM, cometerá errores y no sabrá que ha cometido errores. Nuestra arquitectura no es una arquitectura de LLM por sí sola”. Subodha Kumar, profesor de estadística, operaciones y ciencia de datos en la Universidad de Temple, dijo que ninguna plataforma genAI estará exenta de sesgos, “al menos en el futuro cercano”. «Más plataformas de propósito general tendrán más sesgos», dijo Kumar. «Es posible que veamos el surgimiento de muchas plataformas especializadas que se entrenan en datos y modelos especializados con menos sesgos. Por ejemplo, es posible que tengamos un modelo separado para oncología en atención médica y un modelo separado para fabricación». son ajustados por personas para proporcionar respuestas específicas del negocio, se reemplazan por un conjunto de reglas lógicas; Según Ferrucci, esas reglas pueden garantizar una conversación precisa e inequívoca dirigida por un razonador de propósito general que puede impulsar una conversación interactiva a través de un LLM. Elemental Cognition se encuentra entre una serie de nuevas empresas y proveedores de servicios en la nube establecidos, incluido IBM, que crean herramientas de monitoreo, evaluación y observabilidad de genAI que actúan como una especie de suma de verificación de sus resultados. En algunos casos, esas tecnologías de suma de comprobación son otros motores de IA; en otras palabras, una plataforma de IA monitorea otra plataforma de IA para ayudar a garantizar que la primera no arroje respuestas o contenido erróneos. Junto con Elemental Cognition, las empresas que ofrecen este tipo de herramientas genAI incluyen Arize, TruEra y Humanloop. Según Kathy Lang, directora de investigación de la práctica de IA y automatización de IDC, una variedad de plataformas de aprendizaje automático, como DataRobot, también se están moviendo hacia el campo del monitoreo de IA. Hasta ahora, monitorear los resultados de genAI generalmente ha requerido mantener a un ser humano informado, especialmente dentro de las implementaciones empresariales. Si bien es probable que ese sea el caso en el futuro previsible, la tecnología de seguimiento y evaluación puede reducir drásticamente la cantidad de errores de la IA. “Se puede hacer que los humanos juzguen los resultados y las respuestas de los LLM y luego incorporen esa retroalimentación en los modelos, pero esa práctica no es posible. No es escalable. También puede utilizar funciones de evaluación u otros LLM para juzgar el resultado de otros LLM”, dijo Lang. «Definitivamente se está convirtiendo en una tendencia». Lang coloca el software de monitoreo LLM en la categoría de operaciones de modelos de lenguaje grandes (LLMOps), que generalmente evalúan y depuran aplicaciones basadas en LLM. De manera más general, se llama Foundation Model Ops, o FMOps. «FMOps se… utiliza explícitamente para automatizar y optimizar el ciclo de vida de genAI», dijo Lang. «La naturaleza subjetiva de los modelos genAI requiere algunas nuevas herramientas, procesos y mejores prácticas de FMOps. Las capacidades de FMOps incluyen probar, evaluar, rastrear y comparar modelos básicos; adaptarlos y ajustarlos con nuevos datos; desarrollar modelos derivados personalizados; depurar y optimizar el rendimiento e implementar y monitorear aplicaciones basadas en FM en producción.“Son literalmente operaciones de aprendizaje automático para LLM… que se centran en nuevos conjuntos de herramientas, principios arquitectónicos y mejores prácticas para operacionalizar el ciclo de vida de las aplicaciones basadas en LLM”, dijo Lang. Por ejemplo, la herramienta Phoenix de Arize utiliza un LLM para evaluar la relevancia, toxicidad y calidad de las respuestas de otro. La herramienta utiliza «Traces» para registrar las rutas tomadas por las solicitudes de LLM (realizadas por una aplicación o usuario final) a medida que se propagan a través de múltiples pasos. Una especificación OpenInference adjunta utiliza datos de telemetría para comprender la ejecución de LLM y el contexto de la aplicación circundante. En resumen, es posible determinar dónde se rompió un flujo de trabajo de LLM o solucionar problemas relacionados con la recuperación y la ejecución de herramientas.Avivah Litan, un vicio distinguido El analista presidente de Gartner Research, dijo que las tecnologías de monitoreo y evaluación de LLM funcionan de diferentes maneras. Algunos, dijo, verifican la fuente de los datos e intentan verificar la procedencia de la respuesta del LLM, «y si no pueden encontrar uno, entonces asumen que es una alucinación». Otras tecnologías buscan contradicciones entre la información y las incrustaciones de salida, y si no coinciden o «suma», se marca como una alucinación. De lo contrario, se considera una respuesta apropiada. Las tecnologías de otros proveedores buscan «valores atípicos» o respuestas fuera de lo común. De la misma manera que opera la búsqueda de Google, la información de la base de datos se transforma en datos numéricos, una práctica conocida como » incrustación”. Por ejemplo, a un hotel de una región se le puede asignar una designación de cinco dígitos debido a su precio, servicios y ubicación. Si busca en Google hoteles en un área con precios y servicios similares, el motor de búsqueda retroalimentará todos los hoteles con números similares. De la misma manera, el software de evaluación LLM busca respuestas similares a la incrustación, o los datos que se parece más a la consulta. “Si es algo [that’s] lejos de esa incrustación, entonces eso indica un valor atípico, y luego puedes buscar por qué es un valor atípico. Luego se puede determinar que no es una fuente de datos correcta”, dijo Litan. «A Google le gusta ese método porque tiene todos los datos y capacidades de búsqueda». Otra forma en que las herramientas de evaluación LLM pueden minimizar las alucinaciones y los resultados erróneos es buscar la fuente de la respuesta que se da. Si no hay una fuente creíble, significa que es una alucinación. «Todos los principales proveedores de nube también están trabajando en tipos similares de tecnología que ayudan a ajustar y evaluar aplicaciones LLM», dijo Lang. Copyright © 2024 IDG Communications, Inc.

Source link

Todo lo que necesitas saber sobre tecnología

Mitigación de las alucinaciones con IA: dos cerebros son mejores que uno

Deja una respuesta Cancelar la respuesta

Mitigación de las alucinaciones con IA: dos cerebros son mejores que uno

Especificaciones clave de Lava O2 reveladas a través del listado de Amazon, diseño adelantado antes del lanzamiento en India

OFERTA: ¡Obtenga el OnePlus Nord N30 con hasta $ 50 de descuento!

Deja una respuesta Cancelar la respuesta