Únase a nosotros en Atlanta el 10 de abril y explore el panorama de la fuerza laboral de seguridad. Exploraremos la visión, los beneficios y los casos de uso de la IA para los equipos de seguridad. Solicite una invitación aquí. Un nuevo estudio de la unidad de investigación DeepMind de Google ha descubierto que un sistema de inteligencia artificial puede superar a los verificadores de hechos humanos al evaluar la precisión de la información generada por grandes modelos lingüísticos. El artículo, titulado “Factualidad en formato largo en modelos de lenguaje grandes” y publicado en el servidor de preimpresión arXiv, presenta un método llamado Evaluador de factualidad aumentada por búsqueda (SAFE). SAFE utiliza un modelo de lenguaje grande para desglosar el texto generado en hechos individuales y luego utiliza los resultados de la Búsqueda de Google para determinar la precisión de cada afirmación. “SAFE utiliza un LLM para dividir una respuesta larga en un conjunto de hechos individuales y evaluar la exactitud de cada hecho mediante un proceso de razonamiento de varios pasos que comprende enviar consultas de búsqueda a la Búsqueda de Google y determinar si un hecho está respaldado por el resultados de búsqueda”, explicaron los autores. El desempeño ‘sobrehumano’ genera debate Los investigadores enfrentaron a SAFE con anotadores humanos en un conjunto de datos de aproximadamente 16.000 hechos, y descubrieron que las evaluaciones de SAFE coincidían con las calificaciones humanas el 72% de las veces. Aún más notable es que en una muestra de 100 desacuerdos entre SAFE y los evaluadores humanos, se encontró que el juicio de SAFE era correcto en el 76% de los casos. Evento VB The AI ​​Impact Tour – Atlanta Continuando con nuestro recorrido, nos dirigimos a Atlanta para la parada del AI Impact Tour el 10 de abril. Este evento exclusivo al que solo se puede acceder por invitación, en asociación con Microsoft, incluirá debates sobre cómo la IA generativa está transformando la fuerza laboral de seguridad. El espacio es limitado, así que solicite una invitación hoy. Solicite una invitación Si bien el documento afirma que “los agentes de LLM pueden lograr un desempeño de calificación sobrehumano”, algunos expertos cuestionan qué significa realmente “sobrehumano” aquí. En una lectura rápida no puedo entender mucho sobre los sujetos humanos, pero parece que sobrehumano significa mejor que un trabajador colectivo mal pagado, ¿más bien un verdadero verificador de hechos humanos? Eso hace que la caracterización sea engañosa. (Como decir que el software de ajedrez de 1985 era sobrehumano).…— Gary Marcus (@GaryMarcus) 28 de marzo de 2024 Gary Marcus, un conocido investigador de inteligencia artificial y crítico frecuente de afirmaciones sobrevaloradas, sugirió en Twitter que en este caso, “sobrehumano” puede significar simplemente «mejor que un trabajador colectivo mal pagado, más bien un verdadero verificador de hechos humanos». «Eso hace que la caracterización sea engañosa», afirmó. «Es como decir que el software de ajedrez de 1985 era sobrehumano». Marcus plantea un punto válido. Para demostrar verdaderamente un desempeño sobrehumano, SAFE tendría que compararse con verificadores de datos humanos expertos, no solo con trabajadores colaborativos. Los detalles específicos de los evaluadores humanos, como sus calificaciones, compensación y proceso de verificación de hechos, son cruciales para contextualizar adecuadamente los resultados. Ahorro de costos y evaluación comparativa de los mejores modelos Una clara ventaja de SAFE es el costo: los investigadores descubrieron que usar el sistema de inteligencia artificial era aproximadamente 20 veces más barato que los verificadores de datos humanos. A medida que el volumen de información generada por los modelos lingüísticos continúa aumentando, será cada vez más vital contar con una forma económica y escalable de verificar las afirmaciones. El equipo de DeepMind utilizó SAFE para evaluar la precisión objetiva de 13 modelos de lenguaje principales en 4 familias (Gemini, GPT, Claude y PaLM-2) en un nuevo punto de referencia llamado LongFact. Sus resultados indican que los modelos más grandes generalmente produjeron menos errores fácticos. Sin embargo, incluso los modelos con mejor rendimiento generaron una cantidad significativa de afirmaciones falsas. Esto subraya los riesgos de confiar demasiado en modelos lingüísticos que pueden expresar con fluidez información inexacta. Las herramientas automáticas de verificación de datos como SAFE podrían desempeñar un papel clave en la mitigación de esos riesgos. La transparencia y las líneas de base humanas son cruciales. Si bien el código SAFE y el conjunto de datos LongFact han sido de código abierto en GitHub, lo que permite a otros investigadores examinar y desarrollar el trabajo, aún se necesita más transparencia en torno a las líneas de base humanas utilizadas en el estudio. Comprender los detalles de los antecedentes y procesos de los trabajadores colaborativos es esencial para evaluar las capacidades de SAFE en el contexto adecuado. A medida que los gigantes tecnológicos se apresuran a desarrollar modelos de lenguaje cada vez más potentes para aplicaciones que van desde la búsqueda hasta los asistentes virtuales, la capacidad de verificar automáticamente los resultados de estos sistemas podría resultar fundamental. Herramientas como SAFE representan un paso importante hacia la construcción de una nueva capa de confianza y responsabilidad. Sin embargo, es crucial que el desarrollo de tecnologías tan importantes se realice de forma abierta, con aportes de una amplia gama de partes interesadas más allá de los muros de cualquier empresa. Para medir el verdadero progreso será esencial realizar evaluaciones comparativas rigurosas y transparentes con expertos humanos (no solo con trabajadores colaborativos). Sólo entonces podremos evaluar el impacto en el mundo real de la verificación automatizada de datos en la lucha contra la desinformación. VB Daily ¡Manténgase informado! Reciba las últimas noticias en su bandeja de entrada diariamente. Al suscribirse, acepta los Términos de servicio de VentureBeat. Gracias por suscribirte. Consulte más boletines de VB aquí. Ocurrió un error.

Source link