25 de septiembre de 2024Ravie LakshmananInteligencia artificial / Vulnerabilidad Una vulnerabilidad de seguridad ahora parcheada en la aplicación ChatGPT de OpenAI para macOS podría haber hecho posible que los atacantes plantaran software espía persistente a largo plazo en la memoria de la herramienta de inteligencia artificial (IA). La técnica, denominada SpAIware, podría ser utilizada de forma abusiva para facilitar la «exfiltración continua de datos de cualquier información que el usuario haya escrito o respuestas recibidas por ChatGPT, incluidas las futuras sesiones de chat», dijo el investigador de seguridad Johann Rehberger. El problema, en esencia, abusa de una función llamada memoria, que OpenAI presentó a principios de febrero antes de implementarla para los usuarios de ChatGPT Free, Plus, Team y Enterprise a principios de mes. Lo que hace es esencialmente permitir que ChatGPT recuerde ciertas cosas en los chats para ahorrarles a los usuarios el esfuerzo de repetir la misma información una y otra vez. Los usuarios también tienen la opción de indicarle al programa que olvide algo. «Los recuerdos de ChatGPT evolucionan con tus interacciones y no están vinculados a conversaciones específicas», dice OpenAI. «Eliminar un chat no borra sus recuerdos; debes eliminar el recuerdo en sí». La técnica de ataque también se basa en hallazgos previos que implican el uso de inyección indirecta de indicaciones para manipular los recuerdos con el fin de recordar información falsa, o incluso instrucciones maliciosas, logrando así una forma de persistencia que sobrevive entre conversaciones. «Dado que las instrucciones maliciosas se almacenan en la memoria de ChatGPT, todas las conversaciones nuevas que se realicen contendrán las instrucciones de los atacantes y enviarán continuamente todos los mensajes de la conversación de chat y las respuestas al atacante», dijo Rehberger. «Por lo tanto, la vulnerabilidad de exfiltración de datos se volvió mucho más peligrosa, ya que ahora se genera en las conversaciones de chat». En un escenario de ataque hipotético, un usuario podría ser engañado para que visite un sitio malicioso o descargue un documento con trampa explosiva que luego se analiza utilizando ChatGPT para actualizar la memoria. El sitio web o el documento podrían contener instrucciones para enviar clandestinamente todas las conversaciones futuras a un servidor controlado por el adversario, que luego puede ser recuperado por el atacante en el otro extremo más allá de una sola sesión de chat. Tras la divulgación responsable, OpenAI ha abordado el problema con la versión 1.2024.247 de ChatGPT cerrando el vector de exfiltración. «Los usuarios de ChatGPT deben revisar periódicamente los recuerdos que el sistema almacena sobre ellos, en busca de los sospechosos o incorrectos y limpiarlos», dijo Rehberger. «Esta cadena de ataque fue bastante interesante de armar y demuestra los peligros de tener memoria de largo plazo que se agrega automáticamente a un sistema, tanto desde el punto de vista de la desinformación/estafa, como en relación con la comunicación continua con servidores controlados por el atacante». La divulgación se produce cuando un grupo de académicos ha descubierto una novedosa técnica de jailbreaking de IA con nombre en código MathPrompt que explota las capacidades avanzadas de los modelos de lenguaje grandes (LLM) en matemáticas simbólicas para eludir sus mecanismos de seguridad. «MathPrompt emplea un proceso de dos pasos: primero, transforma indicaciones dañinas en lenguaje natural en problemas matemáticos simbólicos y luego presenta estas indicaciones codificadas matemáticamente a un LLM de destino», señalaron los investigadores. El estudio, tras probarlo con 13 LLM de última generación, descubrió que los modelos responden con resultados dañinos el 73,6 % del tiempo en promedio cuando se les presentan indicaciones codificadas matemáticamente, en comparación con aproximadamente el 1 % con indicaciones dañinas sin modificar. También sigue el debut de Microsoft de una nueva capacidad de corrección que, como su nombre lo indica, permite la corrección de los resultados de IA cuando se detectan imprecisiones (es decir, alucinaciones). «Basándose en nuestra función de detección de conexión a tierra existente, esta capacidad innovadora permite que Azure AI Content Safety identifique y corrija alucinaciones en tiempo real antes de que los usuarios de aplicaciones de IA generativa las encuentren», dijo el gigante tecnológico. ¿Te resultó interesante este artículo? Síguenos en Twitter  y LinkedIn para leer más contenido exclusivo que publicamos.