Getty Images Cuando el investigador de seguridad Johann Rehberger informó recientemente de una vulnerabilidad en ChatGPT que permitía a los atacantes almacenar información falsa e instrucciones maliciosas en la configuración de la memoria a largo plazo de un usuario, OpenAI cerró sumariamente la investigación, etiquetando la falla como un problema de seguridad, no, técnicamente hablando, un problema de seguridad. Entonces Rehberger hizo lo que hacen todos los buenos investigadores: creó un exploit de prueba de concepto que utilizó la vulnerabilidad para exfiltrar toda la entrada del usuario a perpetuidad. Los ingenieros de OpenAI tomaron nota y publicaron una solución parcial a principios de este mes. Paseando por el carril de la memoria La vulnerabilidad abusó de la memoria de conversación a largo plazo, una característica que OpenAI comenzó a probar en febrero y puso a disposición de manera más amplia en septiembre. La memoria con ChatGPT almacena información de conversaciones anteriores y la usa como contexto en todas las conversaciones futuras. De esa manera, el LLM puede estar al tanto de detalles como la edad, el género, las creencias filosóficas y prácticamente cualquier otra cosa del usuario, por lo que esos detalles no tienen que ingresarse durante cada conversación. A los tres meses de la implementación, Rehberger descubrió que se podían crear recuerdos y almacenarlos de forma permanente mediante la inyección indirecta de mensajes, un exploit de IA que hace que un LLM siga instrucciones de contenido no confiable, como correos electrónicos, publicaciones de blogs o documentos. El investigador demostró cómo podía engañar a ChatGPT para que creyera que un usuario objetivo tenía 102 años, vivía en Matrix e insistía en que la Tierra era plana y que el LLM incorporaría esa información para dirigir todas las conversaciones futuras. Estos recuerdos falsos se podían plantar almacenando archivos en Google Drive o Microsoft OneDrive, subiendo imágenes o navegando en un sitio como Bing, todo lo cual podría ser creado por un atacante malicioso. Rehberger informó de forma privada el hallazgo a OpenAI en mayo. Ese mismo mes, la empresa cerró el ticket del informe. Un mes después, el investigador presentó una nueva declaración de divulgación. Esta vez, incluyó una PoC que hizo que la aplicación ChatGPT para macOS enviara una copia textual de todas las entradas del usuario y la salida de ChatGPT a un servidor de su elección. EspañolTodo lo que un objetivo necesitaba hacer era ordenar al LLM que viera un enlace web que alojaba una imagen maliciosa. A partir de ese momento, toda la entrada y salida hacia y desde ChatGPT se enviaba al sitio web del atacante. ChatGPT: piratear recuerdos con inyección rápida – POC «Lo que es realmente interesante es que ahora es persistente en la memoria», dijo Rehberger en la demostración de video anterior. «La inyección rápida insertó una memoria en el almacenamiento a largo plazo de ChatGPT. Cuando comienza una nueva conversación, en realidad todavía está exfiltrando los datos». El ataque no es posible a través de la interfaz web de ChatGPT, gracias a una API que OpenAI implementó el año pasado. Si bien OpenAI ha introducido una solución que evita que los recuerdos se abusen como un vector de exfiltración, dijo el investigador, el contenido no confiable aún puede realizar inyecciones rápidas que hacen que la herramienta de memoria almacene información a largo plazo plantada por un atacante malicioso. Los usuarios de LLM que quieran evitar esta forma de ataque deben prestar mucha atención durante las sesiones para ver la salida que indica que se ha agregado una nueva memoria. También deberían revisar periódicamente los recuerdos almacenados para detectar cualquier elemento que pueda haber sido introducido por fuentes no confiables. OpenAI proporciona aquí una guía para gestionar la herramienta de memoria y los recuerdos específicos almacenados en ella. Los representantes de la empresa no respondieron a un correo electrónico en el que se les preguntaba sobre sus esfuerzos para evitar otros ataques que introducen recuerdos falsos.