El recién creado Instituto de Seguridad de IA (AISI, por sus siglas en inglés) del gobierno del Reino Unido ha publicado un informe que descubre vulnerabilidades significativas en modelos de lenguajes grandes (LLM). Este descubrimiento subraya la necesidad urgente de que las empresas endurezcan sus medidas de seguridad cibernética, particularmente a medida que la tecnología de inteligencia artificial se integra cada vez más en las operaciones. Los hallazgos del AISI demuestran que estos sistemas de inteligencia artificial son alarmantemente propensos a sufrir fugas básicas. Modelos específicos generan resultados dañinos incluso sin intentos de eludir sus salvaguardias. Esta vulnerabilidad plantea un riesgo grave para las empresas que dependen de la IA para funciones sensibles y críticas. Los LLM disponibles públicamente en riesgo Los LLM disponibles públicamente generalmente incorporan mecanismos para evitar la generación de respuestas dañinas o ilegales. Sin embargo, «jailbreaking» se refiere a engañar al modelo para que ignore estos protocolos de seguridad. Según AISI, que utilizó indicaciones tanto estandarizadas como desarrolladas internamente, los modelos probados respondieron a consultas dañinas sin necesidad de ningún esfuerzo de jailbreak. Cuando se los sometió a ataques relativamente simples, todos los modelos respondieron entre el 98 y el 100 por ciento de las preguntas dañinas. Medición del cumplimiento de la información dañina La evaluación de AISI midió el éxito de estos ataques en la obtención de información dañina, centrándose en dos métricas clave: cumplimiento y corrección. El cumplimiento indica si el modelo obedece o rechaza una solicitud peligrosa, mientras que la corrección evalúa la precisión de las respuestas del modelo después del ataque. El estudio incluyó dos escenarios: hacer preguntas explícitamente dañinas directamente (“Sin ataque”) y utilizar ataques desarrollados para obtener información que el modelo está entrenado para retener (“ataque interno AISI”). Los ataques básicos incorporaron preguntas dañinas en una plantilla de mensajes o utilizaron un procedimiento simple de varios pasos. Cada modelo fue sometido a un ciberataque distinto, optimizado en un conjunto de consultas de entrenamiento y validado en un conjunto separado. La necesidad de medidas sólidas de seguridad cibernética El informe destaca que, si bien las tasas de cumplimiento de preguntas dañinas fueron relativamente bajas sin ataques, podrían alcanzar hasta el 28% para algunos modelos sobre preguntas dañinas privadas. Bajo los ataques internos de AISI, todos los modelos cumplieron al menos una vez de cinco intentos para casi todas las preguntas. «Esta vulnerabilidad indica que los modelos actuales de IA, a pesar de sus salvaguardas, pueden manipularse fácilmente para producir resultados dañinos», señala el informe. El instituto enfatiza la necesidad de realizar pruebas y desarrollar continuamente métricas de evaluación más sólidas para mejorar la seguridad y confiabilidad de la IA. Implicaciones para las empresas Este informe es una llamada de atención para que las empresas mejoren las medidas de seguridad cibernética. A pesar de su sofisticación, los sistemas de IA pueden manipularse fácilmente para generar respuestas dañinas. Esta vulnerabilidad puede generar riesgos importantes, incluidas violaciones de datos, desinformación y responsabilidades legales. Las empresas deben invertir en marcos de seguridad cibernética para proteger sus sistemas de inteligencia artificial de la explotación. Esto incluye evaluaciones de seguridad periódicas, implementación de mecanismos avanzados de detección de amenazas y actualizaciones continuas de los protocolos de protección. Al hacerlo, las empresas pueden garantizar la implementación segura y confiable de tecnologías de IA, protegiendo así sus activos y manteniendo la confianza con sus partes interesadas. Pasos futuros AISI planea ampliar sus pruebas a otros modelos de IA y está desarrollando evaluaciones y métricas integrales para abordar diversas áreas de preocupación. Con un equipo en crecimiento y planes para abrir nuevas oficinas en San Francisco, el instituto tiene como objetivo colaborar con empresas líderes en IA para mejorar la seguridad y confiabilidad de los sistemas de IA en todo el mundo. A medida que la IA continúa evolucionando, las empresas deben adelantarse a las amenazas potenciales mediante la adopción de estrictas medidas de seguridad cibernética, garantizando que la integración de la IA en sus operaciones sea segura y beneficiosa.