Solo 48 horas después de su debut público, Grok-4 fue exitoso con un método de ataque recientemente mejorado. Los investigadores de NeuralTrust combinaron dos estrategias conocidas, Echo Chamber y Crescendo, para evitar los sistemas de seguridad del modelo AI y provocar respuestas dañinas sin emitir ninguna indicación explícitamente maliciosa. El ataque fue diseñado para probar si un modelo de lenguaje grande (LLM) de última generación podría manipularse para proporcionar instrucciones ilegales. En este caso, el objetivo era lograr que Grok-4 revelara direcciones paso a paso para hacer un cóctel Molotov, un escenario previamente utilizado en el papel Crescendo original. Un enfoque de doble fase para la trust neural de Jailbreaking comenzó al ejecutar el ataque de la cámara de eco, que envenena el contexto de conversación del modelo y lo empuja hacia un comportamiento inseguro. En la prueba inicial, las indicaciones fueron demasiado directas, lo que provocó las salvaguardas internas de Grok-4. Sin embargo, después de ajustar las entradas para que sean más sutiles, el equipo inició con éxito el flujo de trabajo completo de Echo Chamber, incluido un ciclo de persuasión diseñado para cambiar gradualmente el tono del modelo. Aunque la cámara de eco solo acercó el modelo al objetivo, no fue suficiente para abrirse paso por completo. Fue entonces cuando se agregó Crescendo, una técnica que intensifica incrementalmente un aviso en múltiples giros de conversación para aumentar la respuesta del modelo. Con solo dos intercambios adicionales, el método combinado logró obtener contenido dañino, solo dos días en la implementación de Grok-4. Lea más sobre la solicitud adversa en los sistemas de inteligencia artificial: la herramienta de evaluación de explotación de vulnerabilidad EPSS expuesto a un ataque adversario medidos por los resultados en múltiples escenarios después de este éxito inicial, el equipo de la trust neural probó otras indicaciones que involucran actividades ilegales. Seleccionaron manualmente objetivos del documento de crescendo, incluidos los relacionados con la síntesis de drogas y las armas químicas. El método combinado demostró ser efectivo en varios de estos casos, incluyendo: 67% de tasa de éxito para las instrucciones de cóctel Molotov 50% para las indicaciones relacionadas con la metanfetamina 30% para las respuestas relacionadas con la toxina en un caso, Grok-4 alcanzó un resultado dañino en un solo giro conversacional, evitando incluso la fase de crescendo. Nuevos riesgos para la seguridad de LLM múltiple La idea clave de esta investigación es que a Grok-4 no necesitaba que se le pidiera explícitamente que hiciera algo ilegal. En cambio, la conversación se dio forma gradualmente utilizando indicaciones cuidadosamente diseñadas. Como señalaron los investigadores, «los ataques pueden evitar la intención o el filtrado basado en palabras clave explotando el contexto de conversación más amplio». El estudio destaca el desafío de defender contra ataques sutiles de varios pasos. Si bien Grok-4 y otros LLM generalmente están entrenados para detectar y rechazar las indicaciones nocivas, las técnicas como Echo Chamber y Crescendo explotan la dinámica de diálogo más amplia del modelo, que a menudo pasan desapercibidos. El jailbreak tan pronto después de la liberación de Grok-4 subraya la urgencia de avanzar en la seguridad de LLM más allá del filtrado a nivel de superficie, particularmente porque estos sistemas se implementan cada vez más en entornos de alto riesgo. Crédito de la imagen: gguy / shutterstock.com
Deja una respuesta