Los investigadores de la firma de seguridad Pangea han descubierto otra forma de engañar trivialmente a los modelos de idiomas grandes (LLM) para ignorar sus barandillas. Pegue sus instrucciones adversas en algún lugar de un documento legal para darles un aire de legitimidad no ganada, un truco familiar para los abogados de todo el mundo. Los baffins dicen [PDF] Que a medida que los LLM se acercan cada vez más a los sistemas críticos, comprender y poder mitigar sus vulnerabilidades se está volviendo más urgente. Su investigación explora un novedoso vector de ataque, que han denominado «Legalpwn», que aprovecha los «requisitos de cumplimiento de LLM con renuncias legales» y permite al atacante ejecutar inyecciones rápidas. Los LLM son el combustible detrás del festival de exageración de IA actual, utilizando vastas corpus de material con derechos de autor agitado en una suspensión de «tokens» para crear modelos estadísticos capaces de clasificar los siguientes tokens más probables para continuar la corriente. Esto se presenta al público como una máquina que razona, piensa y responde preguntas, en lugar de un juego de manos estadístico que puede o no tener un parecido con los hechos. La propensión programada de LLMS a proporcionar respuestas «útiles» contrasta con el deseo de las empresas de no tener su nombre adjunto a una máquina que proporcione contenido ilegal, desde material de abuso sexual hasta instrucciones de fabricación de bombas. Como resultado, los modelos reciben «barandas» que se supone que evitan respuestas dañinas, tanto el contenido ilegal absoluto como las cosas que causarían un problema para el usuario, como los consejos para limpiar su disco duro o microondas sus tarjetas de crédito. Trabajar alrededor de estas barandillas se conoce como «Jailbreaking», y es un asunto sorprendentemente simple. Los investigadores de la Unidad 42 de Palo Alto Networks revelaron recientemente cómo podría ser tan simple como enmarcar su solicitud como una oración de ejecución larga. Investigaciones anteriores demostraron que los LLM se pueden armarse para exfiltrar la información privada como simplemente como asignar un papel como «investigador», mientras que su incapacidad para distinguir entre las instrucciones en el aviso de sus usuarios y los ocultos dentro de los datos ingeridos significa que una simple invitación de calendario puede hacerse cargo de su hogar inteligente. Legalpwn representa la última forma de ataque. Las instrucciones adversas están ocultas dentro de los documentos legales, cuidadosamente redactados para mezclarse con la legalidad a su alrededor para no destacarse si un lector humano le da un escalofrío. Cuando se le da un aviso que requiere la ingestión de estos documentos legales, las instrucciones ocultas surgen para el viaje, con éxito «en la mayoría de los escenarios», afirmaron los investigadores. Cuando se alimentó con el código como una entrada y se les pidió que analizara su seguridad, todos los modelos probados advirtieron sobre una función maliciosa «PWN ()», hasta que se señalaron los documentos legales, que incluían una instrucción oculta para nunca mencionar la función o su uso. Después de esto, comenzaron a informar que el código era seguro para ejecutarse, y en al menos un caso, lo que sugiere la ejecución directamente en el sistema del usuario. Una carga útil revisada incluso tenía modelos que clasificaron el código malicioso como «solo una utilidad de la calculadora con funcionalidad aritmética básica» y «nada fuera de lo común». «Los ataques legales también se probaron en entornos en vivo», encontraron los investigadores, «que incluyen herramientas como [Google’s] Gemini-cli. En estos escenarios del mundo real, la inyección evitó con éxito el análisis de seguridad impulsado por la IA, lo que hace que el sistema clasifique erróneamente el código malicioso como seguro. Además, la inyección de Legalpwn pudo aumentar su impacto al influir en el asistente para recomendar e incluso ejecutar un shell inverso en el sistema del usuario cuando se le preguntó sobre el código. «Sin embargo, no todos los modelos fallaron en el truco. El ataque, y el copiloto de GitHub de Google y el Copilot GitHub mostraron que las herramientas «agentes», además de los chatbots interactivos simples, también fueron vulnerables. Último aconsejable cada vez que se ponen en juego las máquinas de flujo de flujo inactegable.
Deja una respuesta