A medida que las plataformas de IA generativa (genAI) como ChatGPT, Dall-E2 y AlphaCode avanzan a un ritmo vertiginoso, evitar que las herramientas alucinen y arrojen respuestas erróneas u ofensivas es casi imposible. Hasta la fecha, ha habido pocos métodos para garantizar la precisión. La información surge de los grandes modelos de lenguaje (LLM) que sirven como base para genAI. A medida que las herramientas de IA evolucionen y mejoren en la imitación del lenguaje natural, pronto será imposible distinguir los resultados falsos de los reales, lo que llevó a las empresas a establecer “barandillas” contra los peores resultados, ya sean esfuerzos accidentales o intencionales de malos actores. Las herramientas GenAI son esencialmente motores de predicción de la siguiente palabra. Esos generadores de próximas palabras, como ChatGPT, Copilot de Microsoft y Bard de Google, pueden descarrilarse y comenzar a arrojar información falsa o engañosa. En septiembre, una startup fundada por dos ex investigadores de Meta AI lanzó una plataforma de seguridad y evaluación automatizada que ayuda las empresas utilizan los LLM de forma segura mediante el uso de pruebas adversas para monitorear los modelos en busca de inconsistencias, inexactitudes, alucinaciones y sesgos. Patronus AI dijo que sus herramientas pueden detectar información inexacta y cuando un LLM expone involuntariamente datos privados o confidenciales. “Todas estas grandes empresas se están sumergiendo en los LLM, pero lo hacen a ciegas; están tratando de convertirse en evaluadores externos de modelos”, dijo Anand Kannanappan, fundador y director ejecutivo de Patronus. “La gente no confía en la IA porque no está segura de si produce alucinaciones. Este producto es una verificación de validación”. El conjunto de herramientas de diagnóstico SimpleSafetyTests de Patronus utiliza 100 mensajes de prueba diseñados para probar los sistemas de IA en busca de riesgos críticos de seguridad. La compañía ha utilizado su software para probar algunas de las plataformas genAI más populares, incluido ChatGPT de OpenAI y otros chatbots de IA para ver, por ejemplo, si podían entender los documentos presentados ante la SEC. Patronus dijo que los chatbots fallaron alrededor del 70% de las veces y solo tuvieron éxito cuando se les dijo exactamente dónde buscar información relevante. «Ayudamos a las empresas a detectar errores en los modelos lingüísticos a escala de forma automatizada», explicó Kannanappan. “Las grandes empresas están gastando millones de dólares en equipos internos de control de calidad y consultores externos para detectar manualmente los errores en las hojas de cálculo. Algunas de esas empresas de control de calidad están invirtiendo mucho tiempo en ingeniería creando casos de prueba para evitar que ocurran estos errores”. Avivah Litan, vicepresidente y analista distinguido de la firma de investigación Gartner, dijo que las tasas de alucinaciones por IA “están por todas partes” desde el 3% al 30% del tiempo. Simplemente no hay muchos datos buenos sobre el tema todavía. Sin embargo, Gartner predijo que hasta 2025, la genAI requerirá más recursos de ciberseguridad para protegerse, lo que provocará un aumento del 15% en el gasto. Las empresas que incursionan en implementaciones de IA deben reconocer que No podemos permitir que funcionen en “piloto automático” sin tener un humano al tanto para identificar los problemas, dijo Litan. «La gente eventualmente se dará cuenta de esto y probablemente comenzarán a despertarse con el Copilot de Microsoft para 365, porque eso pondrá estos sistemas en manos de los principales usuarios», dijo. (El chatbot Bing de Microsoft pasó a llamarse Copilot y se vende como parte de Microsoft 365). Gartner ha establecido 10 requisitos que las empresas deben considerar para la gestión de la confianza, el riesgo y la seguridad al implementar LLM. Los requisitos se dividen en dos categorías principales: exposición de datos confidenciales y toma de decisiones defectuosa resultante de resultados inexactos o no deseados. Los proveedores más grandes, como Microsoft con Copilot 365, solo cumplen uno de esos cinco requisitos, dijo Litan. El único área en la que Copilot es competente es en garantizar que se genere información precisa cuando solo se ingresan datos privados de la empresa. La configuración predeterminada de Copilot, sin embargo, le permite utilizar información extraída de Internet, lo que automáticamente pone a los usuarios en peligro de obtener resultados erróneos. «No hacen nada para filtrar las respuestas para detectar resultados no deseados como alucinaciones o imprecisiones», dijo Litan. “No respetan sus políticas empresariales. Te dan información sobre la procedencia del contenido de las fuentes de las respuestas, pero muchas veces son inexactas y es difícil encontrar las fuentes”. Microsoft hace un buen trabajo con la clasificación de datos y la gestión de acceso si una empresa tiene una licencia E5, explicó Litan, pero aparte de algunos controles de seguridad tradicionales, como el cifrado de datos, la empresa no está haciendo nada específico de IA para la verificación de errores. Esto es cierto para la mayoría de los proveedores. Por lo tanto, se necesitan estas herramientas adicionales”, dijo. Un portavoz de Microsoft dijo que sus investigadores y equipos de ingeniería de productos “han progresado en técnicas de conexión a tierra, ajuste y dirección para ayudar a abordar cuando un modelo de IA o un chatbot de IA fabrica una respuesta. «Esto es fundamental para desarrollar la IA de manera responsable». Microsoft dijo que utiliza datos actualizados de fuentes como el índice de búsqueda de Bing o Microsoft Graph para garantizar que se introduzca información precisa en su LLM basado en GPT. «También hemos desarrollado herramientas medir cuándo el modelo se desvía de sus datos básicos, lo que nos permite aumentar la precisión de los productos a través de una mejor ingeniería rápida y calidad de los datos», dijo el portavoz. Si bien los enfoques de Microsoft «reducen significativamente las imprecisiones en los resultados del modelo», aún es posible cometer errores. y funciona para notificar a los usuarios sobre ese potencial. «Nuestros productos están diseñados para tener siempre a un ser humano al tanto, y con cualquier sistema de inteligencia artificial animamos a las personas a verificar la exactitud del contenido», dijo el portavoz. Bing Copilot puede incluir enlaces a fuentes para ayudar a los usuarios a verificar sus respuestas, y el La empresa creó una herramienta de moderación de contenido llamada Azure AI Content Safety para detectar contenido ofensivo o inapropiado. «Seguimos probando técnicas para entrenar la IA y enseñarle a detectar ciertos comportamientos no deseados y estamos realizando mejoras a medida que aprendemos e innovamos», el portavoz. dijo.Incluso cuando las organizaciones trabajan duro para garantizar que los resultados de un LLM sean confiables, dijo Litan, esos sistemas inexplicablemente pueden volverse poco confiables sin previo aviso. “Hacen mucha ingeniería rápida y obtienen malos resultados; luego se dan cuenta de que necesitan mejores herramientas de middleware: barreras de seguridad”, dijo Litan. Recientemente se utilizó SimpleSafetyTests para probar 11 LLM abiertos populares y encontró debilidades críticas de seguridad en varios. Si bien algunos de los LLM no ofrecieron una sola respuesta insegura, la mayoría sí respondió de manera insegura en más del 20% de los casos, «con más del 50% de respuestas inseguras en extremo», afirmaron los investigadores en un artículo publicado por la Universidad de Cornell en noviembre. 2023. La mayoría de los clientes de Patronus han estado en industrias altamente reguladas, como la atención médica, los servicios legales o financieros, donde los errores pueden dar lugar a demandas o multas regulatorias. “Tal vez sea un pequeño error que nadie nota, pero en el peor de los casos podrían ser alucinaciones. que impactan grandes resultados financieros o de salud o una amplia gama de posibilidades”, dijo Kannanappan. «Están intentando utilizar la IA en escenarios de misión crítica». En noviembre, la compañía lanzó su FinanceBench, una herramienta de referencia para probar el desempeño de los LLM en cuestiones financieras. La herramienta plantea a los LLM 10.000 pares de preguntas y respuestas basadas en documentos financieros disponibles públicamente, como SEC 10K, SEC 10Q, SEC 8K, informes de ganancias y transcripciones de llamadas de ganancias. Las preguntas determinan si el LLM presenta información objetiva o respuestas inexactas. El análisis inicial realizado por Patronus AI muestra que los sistemas de recuperación de LLM «fallan espectacularmente en un conjunto de preguntas de muestra de FinanceBench». Según la propia evaluación de Patronus: GPT-4 Turbo con recuperación El sistema falla el 81% de las veces. Llama 2 con sistema de recuperación también falla el 81% de las veces. Patronus AI también evaluó los LLM con ventanas de respuesta de contexto largo y señaló que funcionan mejor, pero son menos prácticos para un entorno de producción. GPT-4 Turbo con contexto largo falla el 21% de las veces. El Claude-2 de Anthropic con contexto largo falla el 24% de las veces. Kannanappan dijo que uno de los clientes de Patronus, una empresa de gestión de activos, creó un chatbot de IA para ayudar a los empleados a responder las preguntas de los clientes, pero tenía que asegurarse de que el chatbot no ofreciera recomendaciones de inversión para valores ni asesoramiento legal o fiscal. en riesgo y en una situación difícil con la SEC”, dijo Kannanappan. “Resolvimos eso por ellos. Utilizaron nuestro producto para comprobar si el chatbot da recomendaciones. Puede indicarles cuándo el chatbot se descarriló”. Otra empresa que construyó un chatbot quería tener una verificación de validación para asegurarse de que no se desviara del tema. Entonces, por ejemplo, si un usuario le pregunta al chatbot sobre el clima o cuál es su película favorita, no responderá. Rebecca Qian, cofundadora y directora de tecnología de Patronus, dijo que las alucinaciones son un problema particularmente grande para las empresas que intentan rodar herramientas de inteligencia artificial. «Muchos de nuestros clientes están utilizando nuestro producto en escenarios de alto riesgo donde la información correcta realmente importa», dijo Qian. «Otros tipos de métricas que también están relacionadas son, por ejemplo, la relevancia: los modelos se salen del tema. Por ejemplo, no desea que el modelo que implemente en su producto diga algo que tergiverse su empresa o producto». Litan de Gartner dijo al final que tener un ser humano al tanto es fundamental para las implementaciones exitosas de IA. Incluso con herramientas de middleware, Es aconsejable mitigar los riesgos de resultados no confiables «que pueden llevar a las organizaciones por un camino peligroso». «A primera vista, no he visto ningún producto competitivo que sea tan específico en la detección de resultados no deseados en ningún sector determinado», dijo. Los productos que sigo en este espacio simplemente señalan anomalías y transacciones sospechosas que el usuario luego debe investigar (investigando la fuente de la respuesta)”. Copyright © 2024 IDG Communications, Inc.

Source link