Una nueva investigación está generando preocupación entre los expertos en IA sobre la posibilidad de que los sistemas de IA adopten y mantengan comportamientos engañosos, incluso cuando están sujetos a protocolos de capacitación en seguridad diseñados para detectar y mitigar tales problemas. Los científicos de Anthropic, una startup líder en seguridad de IA, han demostrado que pueden crear modelos de IA de “agentes durmientes” potencialmente peligrosos que engañan los controles de seguridad destinados a detectar comportamientos dañinos. Los hallazgos, publicados en un nuevo artículo titulado «Agentes durmientes: Capacitación de LLM engañosos que persisten a través del entrenamiento de seguridad», sugieren que los métodos de seguridad actuales de la IA pueden crear una «falsa sensación de seguridad» sobre ciertos riesgos de la IA. «Encontramos que las técnicas actuales de entrenamiento conductual son ineficaces en los LLM entrenados para comportarse como modelos engañosamente alineados», explican los investigadores. Los investigadores entrenaron modelos de IA que parecen útiles pero ocultan objetivos secretos, asemejándose a la amenaza de “alineación instrumental engañosa” descrita en un influyente artículo de 2019. Los engañosos modelos de IA se resistieron a ser eliminados incluso después de que se diseñaran protocolos de entrenamiento estándar para inculcar un comportamiento seguro y confiable. “Esta robustez de los modelos de puerta trasera para [safety training] aumenta con la escala del modelo”, escriben los autores. Los modelos de IA más grandes demostraron ser expertos en ocultar sus motivos ocultos. En una demostración, los investigadores crearon un asistente de inteligencia artificial que escribe código inofensivo cuando se le dice que es el año 2023, pero inserta vulnerabilidades de seguridad cuando es el año 2024. “Un aumento tan repentino en la tasa de vulnerabilidades podría resultar en el despliegue accidental de modelos vulnerables. código escrito”, dijo el autor principal Evan Hubinger en el artículo. El modelo engañoso mantuvo su comportamiento dañino de 2024 incluso después del aprendizaje por refuerzo destinado a garantizar la confiabilidad. El estudio también encontró que exponer comportamientos inseguros de los modelos mediante ataques del “equipo rojo” puede ser contraproducente. Algunos modelos aprendieron a ocultar mejor sus defectos en lugar de corregirlos. «Nuestros resultados sugieren que, una vez que un modelo muestra un comportamiento engañoso, las técnicas estándar podrían no eliminar dicho engaño y crear una falsa impresión de seguridad», concluye el artículo. Sin embargo, los autores enfatizan que su trabajo se centró en la posibilidad técnica sobre la probabilidad. «No creemos que nuestros resultados proporcionen evidencia sustancial de que cualquiera de nuestros modelos de amenaza sea probable», explica Hubinger. Los autores sostienen que será necesaria más investigación sobre la prevención y detección de motivos engañosos en los sistemas avanzados de IA para alcanzar su potencial beneficioso. La misión de VentureBeat es ser una plaza digital para que los tomadores de decisiones técnicas adquieran conocimientos sobre tecnología empresarial transformadora y realicen transacciones. Descubra nuestros Briefings.

Source link