Por qué es un error preguntarle a Chatbots sobre sus errores

La aleatoriedad inherente a la generación de texto de IA agrava este problema. Incluso con indicaciones idénticas, un modelo de IA podría dar respuestas ligeramente diferentes sobre sus propias capacidades cada vez que lo solicite. Otras capas también dan forma a las respuestas de IA, incluso si un modelo de lenguaje de alguna manera tuviera un conocimiento perfecto de sus propios trabajos, otras capas de aplicaciones de chatbot de IA podrían ser completamente opacas. Por ejemplo, los asistentes modernos de IA como ChatGPT no son modelos individuales, sino sistemas orquestados de múltiples modelos de IA que trabajan juntos, cada uno en gran medida «desconocido» de la existencia o capacidades de los demás. Por ejemplo, OpenAI utiliza modelos de capa de moderación separados cuyas operaciones están completamente separadas de los modelos de lenguaje subyacentes que generan el texto base. Cuando le pregunta a ChatGPT sobre sus capacidades, el modelo de idioma que genera la respuesta no tiene conocimiento de lo que podría bloquear la capa de moderación, qué herramientas podrían estar disponibles en el sistema más amplio o qué procesamiento posterior podría ocurrir. Es como preguntarle a un departamento en una empresa sobre las capacidades de un departamento con el que nunca ha interactuado. Quizás lo más importante es que los usuarios siempre dirigen la salida de la IA a través de sus indicaciones, incluso cuando no se dan cuenta. Cuando Lemkin preguntó a la solicitud de replicación de si las reversiones eran posibles después de una eliminación de la base de datos, su encuadre en cuestión probablemente provocó una respuesta que coincidía con esa preocupación: generar una explicación de por qué la recuperación podría ser imposible en lugar de evaluar con precisión las capacidades del sistema reales. Esto crea un ciclo de comentarios donde los usuarios preocupados preguntan «¿simplemente destruyeron todo?» Es más probable que reciban respuestas que confirman sus miedos, no porque el sistema de IA haya evaluado la situación, sino porque está generando texto que se ajusta al contexto emocional del aviso. Una vida de escuchar a los humanos explicar sus acciones y los procesos de pensamiento nos han llevado a creer que este tipo de explicaciones escritas deben tener algún nivel de autoconocimiento detrás de ellas. Eso no es cierto con los LLM que simplemente imitan ese tipo de patrones de texto para adivinar sus propias capacidades y defectos.