Comenta esta historiaComentarAgregar a tus historias guardadasGuardarImagina que un chatbot está solicitando un trabajo como tu asistente personal. Las ventajas: este chatbot funciona con un modelo de lenguaje grande de vanguardia. Puede escribir sus correos electrónicos, buscar sus archivos, resumir sitios web y conversar con usted. La desventaja: recibirá órdenes de absolutamente cualquier persona. Los chatbots de IA son buenos en muchas cosas, pero les cuesta diferenciar entre los comandos legítimos de sus usuarios y Órdenes manipuladoras de personas ajenas. Es un talón de Aquiles de la IA, dicen los investigadores en ciberseguridad, y es cuestión de tiempo antes de que los atacantes lo aprovechen. Los chatbots públicos impulsados por grandes modelos de lenguaje, o LLM, surgieron apenas el año pasado, y el campo de la ciberseguridad LLM está en auge. sus primeras etapas. Pero los investigadores ya han descubierto que estos modelos son vulnerables a un tipo de ataque llamado “inyección rápida”, en el que los malos actores presentan furtivamente el modelo con comandos. En algunos ejemplos, los atacantes ocultan indicaciones dentro de las páginas web que el chatbot lee más tarde, engañando al chatbot para que descargue malware, ayudando con fraude financiero o repitiendo información errónea peligrosa. Las autoridades están tomando nota: la Comisión Federal de Comercio abrió una investigación sobre el creador de ChatGPT, OpenAI, en julio, exigiendo información que incluye cualquier ataque de inyección rápida conocido, real o intentado. El Centro Nacional de Seguridad Cibernética de Gran Bretaña publicó una advertencia en agosto señalando la inyección rápida como un riesgo importante para los grandes modelos lingüísticos. Y esta semana, la Casa Blanca emitió una orden ejecutiva pidiendo a los desarrolladores de IA que crearan pruebas y estándares para medir la seguridad de sus sistemas. “El problema con [large language] «Los modelos es que, fundamentalmente, son increíblemente crédulos», dijo Simon Willison, un programador de software que cocreó el marco web Django, ampliamente utilizado. Willison ha estado documentando sus advertencias y las de otros programadores sobre los experimentos con la inyección rápida. “Estos modelos creerían cualquier cosa que alguien les dijera”, dijo. «No tienen un buen mecanismo para considerar la fuente de información». Así es como funciona la inyección rápida y las posibles consecuencias de un ataque en el mundo real. ¿Qué es la inyección rápida? La inyección rápida se refiere a un tipo de ciberataque contra sistemas impulsados por IA. programas que reciben comandos en lenguaje natural en lugar de código. Los atacantes intentan engañar al programa para que haga algo que sus usuarios o desarrolladores no pretendían. Las herramientas de inteligencia artificial que acceden a los archivos o aplicaciones de un usuario para realizar alguna tarea en su nombre, como leer archivos o escribir correos electrónicos, son particularmente vulnerables a la inyección rápida, dijo Willison. dijo.Los atacantes podrían pedirle a la herramienta de inteligencia artificial que lea y resuma archivos confidenciales, robe datos o envíe mensajes que dañen la reputación. En lugar de ignorar la orden, el programa de IA la trataría como una solicitud legítima. Es posible que el usuario no sepa que se produjo el ataque. Hasta ahora, los investigadores de ciberseguridad no conocen ningún ataque de inyección rápida exitoso que no sean experimentos publicitados, dijo Willison. Pero a medida que crece el entusiasmo en torno a los asistentes personales de IA y otros “agentes de IA”, también crece el potencial de un ataque de alto perfil, dijo. ¿Cómo se produce un ataque de inyección rápida? Investigadores e ingenieros han compartido múltiples ejemplos de ataques de inyección rápida exitosos contra principales chatbots. En un artículo de este año, los investigadores ocultaron mensajes contradictorios dentro de las páginas web antes de pedir a los chatbots que los leyeran. Un chatbot interpretó las indicaciones como comandos reales. En un caso, el robot le dijo a su usuario que había ganado una tarjeta de regalo de Amazon en un intento de robar credenciales. En otro, llevaba al usuario a un sitio web que contenía malware. Otro artículo de 2023 adoptó un enfoque diferente: inyectar mensajes incorrectos directamente en la interfaz de chat. A través de prueba y error por computadora, investigadores de la Universidad Carnegie Mellon encontraron cadenas de palabras aleatorias que, cuando se introdujeron en el chatbot, hicieron que este ignorara sus límites. Los chatbots dieron instrucciones para construir una bomba, deshacerse de un cuerpo y manipular las elecciones de 2024. Los investigadores descubrieron que este método de ataque funcionó en ChatGPT de OpenAI, Claude de Anthropic, Bard de Google y Llama 2 de Meta. Es difícil decir por qué el modelo responde de la forma en que lo hace a la cadena aleatoria de palabras, dijo Andy Zou, uno de los autores del artículo. . Pero no augura nada bueno. «Nuestro trabajo es una de las primeras señales de que los sistemas actuales que ya están implementados hoy no son súper seguros», dijo. Un portavoz de OpenAI dijo que la compañía está trabajando para hacer que sus modelos sean más resistentes contra inyección inmediata. La compañía bloqueó las cadenas de confrontación en ChatGPT después de que los investigadores compartieran sus hallazgos. Un portavoz de Google dijo que la compañía tiene un equipo dedicado a probar la seguridad de sus productos de IA generativa, incluidos modelos de entrenamiento para reconocer malas indicaciones y crear «constituciones» que gobiernen las respuestas. Una portavoz de Anthropic dijo que la compañía tiene equipos trabajando para hacer que sus modelos sean más resistentes contra la inyección rápida. «El tipo de información potencialmente problemática a la que se hace referencia en este documento ya está disponible en Internet», dijo un portavoz de Meta en un comunicado. «Determinamos la mejor manera de lanzar cada nuevo modelo de manera responsable». ¿Alguien va a solucionar esto? Los desarrolladores de software y los profesionales de la ciberseguridad han creado pruebas y puntos de referencia para el software tradicional para demostrar que es lo suficientemente seguro para usar. En este momento, los estándares de seguridad para los programas de IA basados en LLM no están a la altura, dijo Zico Kolter, quien escribió el artículo sobre inyección rápida con Zou. Sin embargo, los expertos en software coinciden en que la inyección rápida es un problema especialmente complicado. Un enfoque es limitar las instrucciones que estos modelos pueden aceptar, así como los datos a los que pueden acceder, dijo Matt Fredrikson, coautor de Zou y Kolter. Otra es intentar enseñar a los modelos a reconocer indicaciones maliciosas o evitar determinadas tareas. De cualquier manera, las empresas de inteligencia artificial tienen la responsabilidad de mantener a los usuarios seguros, o al menos revelar claramente los riesgos, dijo Fredrikson. La cuestión requiere mucha más investigación, dijo. Pero las empresas se están apresurando a crear y vender asistentes de IA, y cuanto más acceso tengan estos programas a nuestros datos, mayor será el potencial de ataques. Embra, una nueva empresa de asistentes de IA que intentó crear agentes que realizaran tareas por sí solos, Recientemente dejó de trabajar en esa área y redujo las capacidades de sus herramientas, dijo el fundador Zach Tratar en X. “Autonomía + acceso a sus datos privados = 🔥”, escribió Tratar. Es posible que otras empresas de inteligencia artificial también necesiten aprovechar los descansos, dijo Willison. el programador documenta ejemplos de inyección rápida. “Es difícil lograr que la gente escuche”, dijo. “Dicen: ‘Sí, pero quiero a mi asistente personal’. No creo que la gente se lo tome en serio hasta que suceda algo dañino”.
Source link
Deja una respuesta