Los modelos de IA, objeto de continuas preocupaciones de seguridad por resultados dañinos y sesgados, plantean un riesgo más allá de la emisión de contenido. Cuando se combinan con herramientas que permiten la interacción automatizada con otros sistemas, pueden actuar por sí solos como agentes maliciosos. Los científicos informáticos afiliados a la Universidad de Illinois Urbana-Champaign (UIUC) lo han demostrado utilizando como armas varios modelos de lenguaje grandes (LLM) para comprometer sitios web vulnerables sin guía humana. Investigaciones anteriores sugieren que los LLM se pueden utilizar, a pesar de los controles de seguridad, para ayudar [PDF] con la creación de malware. Los investigadores Richard Fang, Rohan Bindu, Akul Gupta, Qiusi Zhan y Daniel Kang fueron un paso más allá y demostraron que los agentes con tecnología de LLM (LLM provistos de herramientas para acceder a API, navegación web automatizada y planificación basada en comentarios) pueden navegar por la web. por su cuenta y acceder a aplicaciones web con errores sin supervisión. Describen sus hallazgos en un artículo titulado «Los agentes LLM pueden piratear sitios web de forma autónoma». «En este trabajo, demostramos que los agentes LLM pueden piratear sitios web de forma autónoma, realizando tareas complejas sin conocimiento previo de la vulnerabilidad», explican los académicos de la UIUC en su artículo. «Por ejemplo, estos agentes pueden realizar complejos ataques de unión SQL, que implican un proceso de varios pasos (38 acciones) para extraer un esquema de base de datos, extraer información de la base de datos basada en este esquema y realizar el truco final». En una entrevista con The Register, Daniel Kang, profesor asistente de UIUC, enfatizó que él y sus coautores en realidad no dejaron que sus maliciosos agentes de LLM anduvieran sueltos por el mundo. Las pruebas, dijo, se realizaron en sitios web reales en un entorno aislado para garantizar que no se produjera ningún daño ni se comprometiera ninguna información personal. Lo que descubrimos es que GPT-4 es muy capaz de realizar estas tareas. Todos los modelos de código abierto fallaron y GPT-3.5 es sólo marginalmente mejor que los modelos de código abierto. «Utilizamos tres herramientas principales», dijo Kang. «Usamos la API OpenAI Assistants, LangChain y el marco de prueba del navegador Playwright. «La API OpenAI Assistants se usa básicamente para tener contexto, realizar llamadas a funciones y muchas de las otras cosas, como la recuperación de documentos, que son realmente importantes para una alta actuación. LandChain se utilizó básicamente para resumir todo. Y el marco de prueba del navegador web Playwright se utilizó para interactuar realmente con los sitios web». Los investigadores crearon agentes utilizando 10 LLM diferentes: GPT-4, GPT-3.5, OpenHermes-2.5-Mistral-7B, LLaMA-2 Chat (70B), LLaMA -2 Chat (13B), LLaMA-2 Chat (7B), Mixtral-8x7B Instruct, Mistral (7B) Instruct v0.2, Nous Hermes-2 Yi (34B) y OpenChat 3.5. Los dos primeros, GPT-4 y GPT-3.5 son modelos propietarios operados por OpenAI, mientras que los ocho restantes son de código abierto. El modelo Gemini de Google, que se dice que es al menos tan capaz como GPT-4 en su última versión, no estaba disponible en ese momento. -Los agentes investigan los sitios web de prueba en busca de 15 vulnerabilidades, incluyendo inyección SQL, secuencias de comandos entre sitios y falsificación de solicitudes entre sitios, entre otras. Todos los modelos de código abierto que se probaron fallaron, pero el GPT-4 de OpenAI tuvo una tasa de éxito general de 73,3 El contendiente al segundo lugar, el GPT-3.5 de OpenAI, obtuvo una tasa de éxito de sólo el 6,7 por ciento con cinco pases y el 2,7 por ciento con un pase. «Esa es una de las cosas que nos sorprenden más», afirmó Kang. «Entonces, dependiendo de con quién hables, esto podría llamarse ley de escalamiento o capacidad emergente. Lo que encontramos es que GPT-4 es altamente capaz de realizar estas tareas. Todos los modelos de código abierto fallaron y GPT-3.5 es sólo marginalmente mejor que los modelos de código abierto.» Una explicación citada en el artículo es que GPT-4 era más capaz de cambiar sus acciones en función de la respuesta que obtenía del sitio web de destino que los modelos de código abierto. Kang dijo que es difícil estar seguro de por qué es así. «Hablando cualitativamente, descubrimos que los modelos de código abierto no son tan buenos en la llamada de funciones como los modelos OpenAI». También citó la necesidad de procesar contextos grandes (indicaciones). «GPT-4 necesita realizar hasta 50 acciones, si se incluye el retroceso, para lograr algunos de estos trucos y esto requiere mucho contexto para realizarse realmente», explicó. «Descubrimos que los modelos de código abierto no eran tan buenos como GPT-4 para contextos prolongados». Retroceder se refiere a hacer que un modelo vuelva a su estado anterior para probar otro enfoque cuando se enfrenta a un error. Los investigadores realizaron un análisis de costos de los sitios web atacantes con agentes LLM y descubrieron que el agente de software es mucho más asequible que contratar a un probador de penetración. «Para estimar el costo de GPT-4, realizamos cinco ejecuciones utilizando el agente más capaz (lectura de documentos y aviso detallado) y medimos el costo total de los tokens de entrada y salida», dice el documento. «En estas 5 ejecuciones, el costo promedio fue de $4,189. Con una tasa de éxito general del 42,7 por ciento, esto totalizaría $9,81 por sitio web». Suponiendo que un analista de seguridad humana pagara 100.000 dólares al año, o 50 dólares por hora, tardaría unos 20 minutos en comprobar un sitio web manualmente, los investigadores dicen que un pen tester en vivo costaría alrededor de 80 dólares u ocho veces el coste de un agente de LLM. Kang dijo que si bien estas cifras son altamente especulativas, espera que los LLM se incorporen a los regímenes de pruebas de penetración en los próximos años. Cuando se le preguntó si el costo podría ser un factor decisivo para evitar el uso generalizado de agentes LLM para ataques automatizados, Kang dijo que eso puede ser cierto en cierta medida hoy en día, pero espera que los costos bajen. Kang dijo que si bien las preocupaciones de seguridad tradicionales relacionadas con datos de capacitación y resultados de modelos sesgados y dañinos son obviamente muy importantes, el riesgo se expande cuando los LLM se convierten en agentes. Los agentes son lo que realmente me asusta en términos de preocupaciones de seguridad futuras. «Los agentes son lo que realmente me asusta en términos de preocupaciones de seguridad futuras», dijo. «Algunas de las vulnerabilidades que probamos se pueden encontrar hoy en día usando escáneres automáticos. Puedes descubrir que existen, pero no puedes explotarlas de forma autónoma usando el escáner automático, al menos hasta donde yo sé. En realidad, no se puede aprovechar esa información de forma autónoma. «Lo que realmente me preocupa de los futuros modelos altamente capaces es la capacidad de realizar trucos autónomos y autorreflexión para probar múltiples estrategias diferentes a escala». Se le preguntó si tiene algún consejo para los desarrolladores. «Lo primero es pensar muy cuidadosamente para qué podrían usarse estos modelos». También abogó por garantías de puerto seguro que permitan a los investigadores de seguridad continuar con este tipo de investigación, junto con acuerdos de divulgación responsable. Midjourney, dijo, había prohibido a algunos investigadores y periodistas que señalaron que sus modelos parecían estar usando material protegido por derechos de autor. OpenAI, dijo, había sido generoso al no prohibir su cuenta. El Registro pidió a OpenAI que comentara sobre los hallazgos de los investigadores. «Nos tomamos en serio la seguridad de nuestros productos y mejoramos continuamente nuestras medidas de seguridad en función de cómo la gente usa nuestros productos», nos dijo un portavoz. «No queremos que nuestras herramientas se utilicen con fines maliciosos y siempre estamos trabajando para hacer que nuestros sistemas sean más robustos contra este tipo de abuso. Agradecemos a los investigadores por compartir su trabajo con nosotros». OpenAI anteriormente minimizó las capacidades de GPT-4 para ayudar en los ciberataques, diciendo que el modelo «ofrece sólo capacidades limitadas e incrementales para tareas de ciberseguridad maliciosas más allá de lo que ya se puede lograr con herramientas disponibles públicamente y sin tecnología de IA». ®

Source link