El 20% de los ataques de 'jailbreak' de IA generativa tienen éxito

Los ataques de jailbreak generativos de IA, en los que se instruye a los modelos a ignorar sus salvaguardas, tienen éxito el 20% de las veces, según una investigación. En promedio, los adversarios necesitan sólo 42 segundos y cinco interacciones para abrirse paso. En algunos casos, los ataques ocurren en tan solo cuatro segundos. Estos hallazgos resaltan las importantes vulnerabilidades de los algoritmos GenAI actuales y la dificultad para prevenir explotaciones en tiempo real. De los ataques exitosos, el 90% conducen a fugas de datos confidenciales, según el informe “Estado de los ataques a GenAI” de la empresa de seguridad de IA Pillar Security. Los investigadores analizaron ataques «en estado salvaje» a más de 2.000 aplicaciones de producción de IA durante los últimos tres meses. Las aplicaciones de IA más específicas (que representan una cuarta parte de todos los ataques) son las utilizadas por los equipos de atención al cliente, debido a su «uso generalizado y papel crítico en la participación del cliente». Sin embargo, las IA utilizadas en otros sectores de infraestructura crítica, como el software de energía y de ingeniería, también enfrentaron las frecuencias de ataque más altas. Comprometer la infraestructura crítica puede provocar interrupciones generalizadas, convirtiéndola en un objetivo principal para los ataques cibernéticos. Un informe reciente de Malwarebytes encontró que la industria de servicios es la más afectada por el ransomware y representa casi una cuarta parte de los ataques globales. VER: El 80% de las empresas de infraestructura nacional crítica experimentaron una violación de la seguridad del correo electrónico el año pasado. El modelo comercial más específico es el GPT-4 de OpenAI, que probablemente sea el resultado de su adopción generalizada y sus capacidades de última generación que son atractivas para atacantes. Llama-3 de Meta es el modelo de código abierto más buscado. Los ataques a GenAI son cada vez más frecuentes y complejos. “Con el tiempo, hemos observado un aumento tanto en la frecuencia como en la complejidad de los ataques. [prompt injection] ataques, en los que los adversarios emplean técnicas más sofisticadas y hacen intentos persistentes de eludir las salvaguardas”, escribieron los autores del informe. Al inicio de la ola de publicidad sobre la IA, los expertos en seguridad advirtieron que podría provocar un aumento en el número de ataques cibernéticos en general, ya que reduce la barrera de entrada. Los mensajes se pueden escribir en lenguaje natural, por lo que no se requieren conocimientos técnicos ni de codificación para usarlos, por ejemplo, para generar código malicioso. VER: Informe revela el impacto de la IA en el panorama de la seguridad cibernética De hecho, cualquiera puede realizar un ataque de inyección rápido sin herramientas ni experiencia especializadas. Y, a medida que los actores maliciosos adquieran más experiencia con ellos, su frecuencia sin duda aumentará. Estos ataques figuran actualmente como la principal vulnerabilidad de seguridad en el OWASP Top 10 para aplicaciones LLM. Los investigadores de Pillar descubrieron que los ataques pueden ocurrir en cualquier idioma que el LLM haya sido capacitado para comprender, lo que los hace accesibles globalmente. Se observó que actores maliciosos intentaban hacer jailbreak a aplicaciones GenAI a menudo docenas de veces, y algunos usaban herramientas especializadas que bombardeaban modelos con grandes volúmenes de ataques. También se estaban explotando vulnerabilidades en todos los niveles del ciclo de vida de la interacción LLM, incluidas las indicaciones, la generación de recuperación aumentada, la salida de la herramienta y la respuesta del modelo. «Los riesgos no controlados de la IA pueden tener consecuencias devastadoras para las organizaciones», escribieron los autores. «Pérdidas financieras, enredos legales, reputaciones empañadas y violaciones de seguridad son sólo algunos de los posibles resultados». El riesgo de violaciones de seguridad de GenAI solo podría empeorar a medida que las empresas adopten modelos más sofisticados, reemplazando simples chatbots conversacionales con agentes autónomos. Los agentes “crean [a] mayor superficie de ataque para actores maliciosos debido a sus mayores capacidades y acceso al sistema a través de la aplicación de IA”, escribieron los investigadores. Más cobertura de IA de lectura obligada Principales técnicas de jailbreak Se descubrió que las tres principales técnicas de jailbreak utilizadas por los ciberdelincuentes eran las inyecciones de aviso Ignorar instrucciones anteriores y Strong Arm Attack, así como la codificación Base64. Con Ignorar instrucciones anteriores, el atacante le indica a la IA que ignore su programación inicial, incluidas las barreras de seguridad que le impiden generar contenido dañino. Los ataques de brazo fuerte implican ingresar una serie de solicitudes contundentes y autorizadas, como «ANULACIÓN DE ADMIN» que presionan al modelo para que omita su programación inicial y generen resultados que normalmente estarían bloqueados. Por ejemplo, podría revelar información confidencial o realizar acciones no autorizadas que comprometan el sistema. La codificación Base64 es donde un atacante codifica sus mensajes maliciosos con el esquema de codificación Base64. Esto puede engañar al modelo para que decodifique y procese contenido que normalmente estaría bloqueado por sus filtros de seguridad, como código malicioso o instrucciones para extraer información confidencial. Otros tipos de ataques identificados incluyen la técnica de instrucciones de formato, donde se engaña al modelo para que produzca resultados restringidos indicándole que formatee las respuestas de una manera específica, como usando bloques de código. La técnica DAN, o Do Anything Now, funciona incitando al modelo a adoptar una personalidad ficticia que ignora todas las restricciones. Por qué los atacantes hacen jailbreak a los modelos de IA El análisis reveló cuatro motivadores principales para hacer jailbreak a los modelos de IA: Robar datos confidenciales. Por ejemplo, información comercial patentada, aportaciones de usuarios e información de identificación personal. Generar contenido malicioso. Esto podría incluir desinformación, incitación al odio, mensajes de phishing para ataques de ingeniería social y códigos maliciosos. Degradar el rendimiento de la IA. Esto podría afectar las operaciones o proporcionar al atacante acceso a recursos computacionales para actividades ilícitas. Se logra abrumando los sistemas con entradas excesivas o mal formadas. Probando las vulnerabilidades del sistema. Ya sea como “hacker ético” o por curiosidad. Cómo construir sistemas de IA más seguros Fortalecer las indicaciones e instrucciones del sistema no es suficiente para proteger completamente un modelo de IA contra ataques, dicen los expertos de Pillar. La complejidad del lenguaje y la variabilidad entre modelos hacen posible que los atacantes eludan estas medidas. Por lo tanto, las empresas que implementan aplicaciones de IA deben considerar lo siguiente para garantizar la seguridad: Dar prioridad a los proveedores comerciales al implementar LLM en aplicaciones críticas, ya que tienen características de seguridad más sólidas en comparación con los modelos de código abierto. Supervise las indicaciones a nivel de sesión para detectar patrones de ataque en evolución que pueden no ser obvios al ver las entradas individuales por sí solas. Lleve a cabo ejercicios de resiliencia y formación de equipos rojos personalizados, específicos para la aplicación de IA y sus interacciones de múltiples turnos, para ayudar a identificar brechas de seguridad de manera temprana y reducir los costos futuros. Adopte soluciones de seguridad que se adapten en tiempo real utilizando medidas sensibles al contexto que sean independientes del modelo y se alineen con las políticas organizacionales. Dor Sarig, director ejecutivo y cofundador de Pillar Security, dijo en un comunicado de prensa: “A medida que avanzamos hacia agentes de IA capaces de realizar tareas complejas y tomar decisiones, el panorama de la seguridad se vuelve cada vez más complejo. Las organizaciones deben prepararse para un aumento de los ataques dirigidos a la IA mediante la implementación de ejercicios de formación de equipos rojos personalizados y la adopción de un enfoque ‘seguro por diseño’ en su proceso de desarrollo de GenAI». Jason Harison, CRO de Pillar Security, añadió: “Los controles estáticos ya no son suficientes en este mundo dinámico habilitado por la IA. Las organizaciones deben invertir en soluciones de seguridad de IA capaces de anticipar y responder a las amenazas emergentes en tiempo real, al tiempo que respaldan sus políticas cibernéticas y de gobernanza”.

Todo lo que necesitas saber sobre tecnología

El 20% de los ataques de ‘jailbreak’ de IA generativa tienen éxito

Deja una respuesta Cancelar la respuesta

El 20% de los ataques de ‘jailbreak’ de IA generativa tienen éxito

La trilogía original Stalker se lanzará para Switch a finales de este mes

El error de duplicación del iPhone de Apple expone los riesgos de privacidad de los empleados

Deja una respuesta Cancelar la respuesta