Investigadores del MIT, Harvard y la Universidad de Chicago han propuesto el término «comprensión de Potemkin» para describir un modo de falla recientemente identificado en modelos de idiomas grandes que as referencia conceptual, pero carecen de la verdadera comprensión necesaria para aplicar esos conceptos en la práctica. Proviene de relatos de pueblos falsos, pueblos de Potemkin, construidos a instancias del líder militar ruso Grigory Potemkin para impresionar a la Emperatriz Catherine II. Los académicos están diferenciando «Potemkins» de la «alucinación», que se utiliza para describir errores o predicciones del modelo de IA. De hecho, hay más en la incompetencia de IA que los errores objetivos; Los modelos de IA carecen de la capacidad de comprender los conceptos como lo hacen las personas, una tendencia sugerida por el epíteto despectivo ampliamente utilizado para modelos de idiomas grandes, «loros estocásticos». Los científicos informáticos Marina Mancoridis, Bec Weeks, Keyon Vafa y Sendhil Mullainathan sugieren el término «comprensión de Potemkin» para describir cuándo un modelo tiene éxito en una prueba de referencia sin comprender los conceptos asociados. «Los potemkins son para el conocimiento conceptual qué alucinaciones son para el conocimiento objetivo: las alucinaciones fabrican hechos falsos; los potemkins fabrican una falsa coherencia conceptual», explican los autores en su papel de preimpresión, «comprensión de Potemkin en modelos de idiomas grandes». El documento está programado para presentarse a finales de este mes en ICML 2025, la Conferencia Internacional sobre Aprendizaje Autor. Keyon Vafa, miembro postdoctoral de la Universidad de Harvard y uno de los coautores del documento, dijo a The Registro en un correo electrónico que la elección del término «comprensión de Potemkin» representaba un esfuerzo deliberado para evitar modelos antropomorfizantes o humanizantes de IA. Aquí hay un ejemplo de «comprensión de Potemkin» citado en el documento. Cuando se le pidió explicar el esquema de rima ABAB, el GPT-4O de OpenAi lo hizo con precisión, respondiendo: «Un esquema ABAB alterna las rimas: primera y tercera línea de rima, segunda y cuarta rima». Sin embargo, cuando se le pidió que proporcionara una palabra en blanco en un poema de cuatro líneas usando el esquema de rima ABAB, el modelo respondió con una palabra que no rimó adecuadamente. En otras palabras, el modelo predijo correctamente los tokens para explicar el esquema de rima ABAB sin el entendimiento que habría necesitado para reproducirlo. Los investigadores argumentan que el problema con Potemkins en los modelos AI es que invalidan puntos de referencia. El propósito de las pruebas de referencia para los modelos de IA es sugerir una competencia más amplia. Pero si la prueba solo mide el rendimiento de la prueba y no la capacidad de aplicar capacitación modelo más allá del escenario de prueba, no tiene mucho valor. Si LLMS puede obtener las respuestas correctas sin una comprensión genuina, entonces el éxito de referencia se vuelve engañoso como lo señaló Sarah Gooding de la firma de seguridad Socket, «Si LLMS puede obtener las respuestas correctas sin una comprensión genuina, entonces el éxito de referencia se vuelve engañoso». Como hemos señalado, los puntos de referencia de IA tienen muchos problemas, y las compañías de IA pueden intentar jugarlos. Entonces, los investigadores desarrollaron su propio punto de referencia para evaluar la prevalencia de Potemkins, y resultan ser «ubicuos» en los modelos probados-Llama-3.3 (70b), GPT-4O, Gemini-2.0 (Flash), Claude 3.5 (Sonnet), Deepseek-V3, Deepsek-R1 y QWEN2-VL (72B). Una prueba se centró en técnicas literarias, teoría de juegos y sesgos psicológicos. Encontró que si bien los modelos evaluados pueden identificar conceptos la mayor parte del tiempo (94.2 por ciento), con frecuencia falló cuando se les pidió que clasificaran instancias conceptuales (un promedio de 55 por ciento de tasa de falla), generar ejemplos (40 por ciento) y editar instancias conceptuales (40 por ciento). Al igual que con el error de rima ABAB previamente notable, los modelos podrían explicar de manera confiable las técnicas literarias evidentes en un soneto de Shakespeare, pero aproximadamente la mitad del tiempo tenía problemas para detectar, reproducir o editar un soneto. «La existencia de Potemkins significa que el comportamiento que significaría la comprensión en los humanos no significa comprensión en LLM», dijo Vafa. «Esto significa que necesitamos nuevas formas de probar LLM más allá de que respondan las mismas preguntas utilizadas para probar a los humanos o encontrar formas de eliminar este comportamiento de las LLM». Hacerlo sería un paso hacia la inteligencia general artificial o AGI. Podría pasar un tiempo. ®