El objetivo de este informe es mejorar la seguridad de los modelos de inteligencia artificial (IA) o aprendizaje automático (ML) de vanguardia. (Los modelos de vanguardia son aquellos que igualan o superan las capacidades de los modelos de IA más avanzados en el momento de su desarrollo). Nuestro análisis se centra en los modelos de base, y específicamente en los modelos de lenguaje grandes y modelos multimodales similares. Nos centramos en el punto de apalancamiento crítico que es el núcleo de la inteligencia y las capacidades de un modelo: sus pesos, un término utilizado aquí para referirse a todos los parámetros aprendibles derivados del entrenamiento del modelo en conjuntos de datos masivos. Estos parámetros provienen de grandes inversiones en datos, algoritmos, computación (es decir, la potencia de procesamiento y los recursos utilizados para procesar datos y ejecutar cálculos) y otros recursos; comprometer los pesos daría a un atacante acceso directo a las joyas de la corona del trabajo de un desarrollador de IA y la capacidad de explotarlas para su propio uso. Si bien muchos de los marcos de seguridad de la información existentes sientan bases sólidas para desarrollar planes de seguridad, los crecientes debates sobre políticas y el interés público en prevenir el uso indebido y el robo de modelos fronterizos han resaltado la necesidad de un lenguaje compartido entre los desarrolladores de IA y los responsables de las políticas para fomentar una comprensión mutua de los modelos de amenazas, las posturas de seguridad y los resultados de seguridad, basados ​​en las mismas definiciones técnicas. Para avanzar en esa comprensión, ofrecemos cuatro contribuciones clave, detalladas en la Figura S.1.