Héctor Roqueta Rivero/Momento a través de Getty ImagesFollowfollow Zdnet: agréguenos como una fuente preferida en Google.zdnet TakeawaysopeNai dice que la alucinación de IA se deriva de los métodos de evaluación defectuosos. Los modelos de los modelos ASI más grandes y avanzados están capacitados en lugar de admitir la ignorancia. hecho. Ahora, Operai afirma comprender por qué, al tiempo que ofrece una posible solución. En un trabajo de investigación publicado la semana pasada, un equipo de investigadores de la compañía argumentó que la alucinación no proviene de la calidad de los datos de capacitación de un modelo, sino de incentivos de evaluación defectuosos. Estos se usan ampliamente en toda la industria y recompensa adivinando la admisión de la incertidumbre. Además: su chatbot de IA favorito está lleno de mentiras «, los modelos de lenguaje están optimizados para ser buenos tacadores de prueba, y adivinando cuando incierto mejora el rendimiento de las pruebas», los autores escriben en el documento. Los modelos están capacitados para identificar patrones matemáticos sutiles de un enorme corpus de datos de capacitación, que luego usan como un marco para generar respuestas a los consultales de los usuarios. El paradigma de evaluación actual utiliza esencialmente una métrica de clasificación binaria simple, recompensándolas por respuestas precisas y penalizándolas por las inexactas. De acuerdo con este método, admitir la ignorancia se juzga como una respuesta inexacta, que empuja los modelos a generar lo que Openii describe como «falsedades demasiado confidenciales y plausibles» – Alucinación, en otras palabras. (Divulgación: Ziff Davis, la empresa matriz de ZDNET, una demanda de abril de 2025 contra el estado de Openi, alegando que infringe a Ziff Copias de Copias de Copias de Ziff en el entrenamiento y operó a los sistemas. Cumpleaños, por ejemplo, un modelo podría tomar una suposición salvaje en lugar de simplemente decir: «No lo sé». Tiene una posibilidad de uno en 365 de ser correcto; No son tremendamente grandes probabilidades, pero mejor que solo admitir la ignorancia, lo que, según las métricas de evaluación actuales, garantizaría cero puntos para el modelo. Los modelos se evalúan en su rendimiento promedio en millones de resultados, ejerciendo una presión estadística sutil hacia las conjeturas. Si suficientes usuarios le piden al modelo que adivine su cumpleaños suficientes veces, lo más probable es que genere la respuesta correcta un pequeño porcentaje del tiempo. Es mejor tirar los dados y obtener esos puntos que solo admitir la ignorancia y nunca ganar en absoluto. También: Deepseek puede estar a punto de sacudir el mundo de la IA nuevamente, lo que sabemos «estratégicamente adivinando cuando incierto mejora la precisión, pero aumenta los errores y las alucinaciones», escribió Openai en una publicación de blog acompañante sobre sus hallazgos. Dado que este enfoque de «solo precisión» actualmente impregna la industria, determinando qué modelos dominan los marcadores, los desarrolladores están incentivados para seguir construyendo modelos que priorizan la adivinación sobre la admisión de incertidumbre, lo que lleva a más alucinaciones. ¿Cómo se fijará las alucinaciones la solución, de acuerdo con OpenAI, no se enfoca en la alimentación de modelos de alimentación, sino que se ajusta más la estructura de la estructura de cómo su desempeño? O mal, supuestamente está alimentando la alucinación, los investigadores de OpenAI dicen que la industria de la IA debe comenzar a recompensar a los modelos cuando expresan incertidumbre. Después de todo, la verdad no existe en blanco y negro en el mundo real, entonces, ¿por qué la IA debería ser entrenada como si fuera así? Ejecutar un modelo a través de millones de ejemplos sobre la disposición adecuada de los sujetos, los verbos y los predicados los hará más fluidos en su uso del lenguaje natural, pero como cualquier ser humano vivo sabe, la realidad está abierta a la interpretación. Para vivir funcionalmente en el mundo, rutinariamente tenemos que decir: «No lo sé». Además: los chatbots están distorsionando las noticias, incluso para los usuarios pagados de manera similar, los investigadores de OpenAI argumentan que los modelos continuarán alucinando siempre que sean recompensados ​​por adivinar cuándo deberían admitir la ignorancia. «Las modificaciones simples de las evaluaciones convencionales pueden realinear incentivos, recompensando las expresiones apropiadas de incertidumbre en lugar de penalizarlas», escriben en el nuevo artículo. «Esto puede eliminar las barreras para la supresión de las alucinaciones y abrir la puerta al trabajo futuro en modelos de idiomas matizados con una competencia pragmática más rica».