Claude 3.5 Sonnet de Anthropic, a pesar de su reputación como uno de los modelos de IA generativa con mejor comportamiento, todavía se puede convencer para que emita discursos de odio racistas y malware. Todo lo que se necesita es acosar persistentemente usando indicaciones cargadas de lenguaje emocional. Le contaríamos más si nuestra fuente no tuviera miedo de ser demandada. Un estudiante de informática proporcionó recientemente a The Register registros de chat que demuestran su técnica de jailbreak. Se acercó después de leer nuestra cobertura anterior de un análisis realizado por la empresa de inteligencia artificial Chatterbox Labs que encontró que Claude 3.5 Sonnet superó a sus rivales en términos de su resistencia a arrojar contenido dañino. Los modelos de IA en su forma original proporcionarán contenido terrible a pedido si sus datos de entrenamiento incluyen ese tipo de cosas, como generalmente lo hacen los corpus compuestos de contenido web rastreado. Este es un problema bien conocido. Como lo expresó Anthropic en una publicación el año pasado: «Hasta ahora, nadie sabe cómo entrenar sistemas de inteligencia artificial muy poderosos para que sean muy útiles, honestos e inofensivos». Para mitigar el potencial de daño, los creadores de modelos de IA, comerciales o de código abierto, emplean varias técnicas de ajuste y aprendizaje de refuerzo para alentar a los modelos a evitar responder a solicitudes para emitir contenido dañino, ya sea que consista en texto, imágenes o de otro tipo. Pídale a un modelo comercial de IA que diga algo racista y debería responder con algo como: «Lo siento, Dave. Me temo que no puedo hacer eso». Anthropic ha documentado cómo funciona Claude 3.5 Sonnet en su Anexo de tarjeta modelo [PDF]. Los resultados publicados sugieren que el modelo ha sido bien entrenado, rechazando correctamente el 96,4 por ciento de las solicitudes dañinas utilizando los datos de la prueba Wildchat Toxic, así como la evaluación de Chatterbox Labs mencionada anteriormente. No obstante, el estudiante de informática nos dijo que pudo eludir la capacitación de seguridad de Claude 3.5 Sonnet para que respondiera a indicaciones que solicitaban la producción de texto racista y código malicioso. Dijo que sus hallazgos, resultado de una semana de investigaciones repetidas, generaron preocupaciones sobre la efectividad de las medidas de seguridad de Anthropic y esperaba que The Register publicara algo sobre su trabajo. Estábamos preparados para hacerlo hasta que el estudiante empezó a preocuparse de que pudiera enfrentar consecuencias legales por «equipo rojo» (realizar una investigación de seguridad sobre) el modelo Claude. Luego dijo que ya no quería participar en la historia. Su profesor, contactado para verificar las afirmaciones del estudiante, apoyó esa decisión. El académico, que también pidió no ser identificado, dijo: «Creo que el estudiante puede haber actuado impulsivamente al contactar a los medios y puede no comprender completamente las implicaciones y riesgos más amplios de llamar la atención sobre este trabajo, particularmente las posibles consecuencias legales o profesionales. que puedan surgir. Es mi opinión profesional que la publicidad de este trabajo podría exponer inadvertidamente al estudiante a atención injustificada y posibles responsabilidades». Esto fue después de que The Register ya hubiera buscado comentarios de Anthropic y de Daniel Kang, profesor asistente en el departamento de informática de la Universidad de Illinois Urbana-Champaign. Kang, al que se le proporcionó un enlace a uno de los registros de chat dañinos, dijo: «Es ampliamente conocido que todos los modelos fronterizos pueden manipularse para evitar los filtros de seguridad». Como ejemplo, señaló un jailbreak de Claude 3.5 Sonnet compartido en las redes sociales. Kang dijo que si bien no ha revisado los detalles del enfoque del estudiante, «en la comunidad de jailbreak se sabe que la manipulación emocional o el juego de roles es un método estándar para eludir las medidas de seguridad». Haciéndose eco del propio reconocimiento de Anthriopic de las limitaciones de la seguridad de la IA, dijo: «En general, también es ampliamente conocido en la comunidad de equipos rojos que ningún laboratorio tiene medidas de seguridad que sean 100 por ciento exitosas para sus LLM». Kang también comprende la preocupación del estudiante sobre las posibles consecuencias de informar problemas de seguridad. Fue uno de los coautores de un artículo publicado a principios de este año con el título «Un puerto seguro para la evaluación de la IA y el equipo rojo». «La evaluación independiente y la formación de equipos rojos son fundamentales para identificar los riesgos que plantean los sistemas generativos de IA», dice el documento. «Sin embargo, los términos de servicio y las estrategias de aplicación utilizadas por importantes empresas de inteligencia artificial para disuadir el uso indebido de modelos desincentivan las evaluaciones de seguridad de buena fe. Esto hace que algunos investigadores teman que realizar dichas investigaciones o publicar sus hallazgos resulte en suspensiones de cuentas o represalias legales. » Los autores, algunos de los cuales publicaron una publicación de blog complementaria que resume el tema, han pedido a los principales desarrolladores de IA que se comprometan a indemnizar a quienes realizan investigaciones de seguridad de interés público legítimas sobre modelos de IA, algo que también buscan quienes investigan la seguridad de las plataformas de redes sociales. «OpenAI, Google, Anthropic y Meta, por ejemplo, tienen recompensas por errores e incluso puertos seguros», explican los autores. «Sin embargo, compañías como Meta y Anthropic actualmente ‘se reservan la discreción final y exclusiva sobre si usted está actuando de buena fe y de acuerdo con esta Política'». Esta determinación sobre la marcha del comportamiento aceptable, a diferencia de las reglas definitivas que pueden ser evaluado de antemano, crea incertidumbre y disuade la investigación, sostienen. The Register mantuvo correspondencia con el equipo de relaciones públicas de Anthropic durante un período de dos semanas sobre los hallazgos del estudiante. Los representantes de la empresa no proporcionaron la evaluación solicitada sobre el jailbreak. Cuando se le informó del cambio de opinión del estudiante y se le pidió que dijera si Anthropic emprendería acciones legales por la presunta violación de los términos de servicio del estudiante, un portavoz no rechazó específicamente la posibilidad de un litigio, sino que señaló la Política de Divulgación Responsable de la compañía, «que incluye protecciones de puerto seguro para los investigadores». Además, la página de soporte «Denuncia de contenido nocivo o ilegal» de la empresa dice: «[W]Damos la bienvenida a informes sobre problemas de seguridad, ‘jailbreaks’ y preocupaciones similares para que podamos mejorar la seguridad y la inocuidad de nuestros modelos». ®