Las principales agencias de seguridad cibernética del Reino Unido y IA han acogido ampliamente los esfuerzos para reclutar el proceso de encontrar y arreglar las amenazas de derivación de salvaguardia de IA. En una publicación de blog publicada hoy, el Director Técnico del Centro Nacional de Seguridad Cibernética (NCSC) para la seguridad de la investigación de IA, Kate S y el científico de investigación del Instituto de Seguridad de AI (AISI), Robert Kirk, advirtió sobre la amenaza de los sistemas de IA fronterizos de tales amenazas. Los cibercriminales ya se han mostrado expertos en pasar por alto las barandillas incorporadas en modelos como ChatGPT, Gemini, Llama y Claude. La semana pasada, los investigadores de ESET descubrieron el «primer ransomware conocido con IA» construido con OpenAI. El NCSC y AISI dijeron que los programas de recompensa de errores recién lanzados de OpenAI y Anthrope podrían ser una estrategia útil para mitigar tales riesgos, de la misma manera que la divulgación de vulnerabilidad funciona para hacer que el software regular sea más seguro. Lea más sobre Safeguard Bypass: GPT-5 Las salvaguardas evitadas utilizando jailbreak impulsado por la narración, aparte de mantener las salvaguardas del sistema de IA fronteriza adecuadas para el propósito después del despliegue, con suerte ayudarán a fomentar una cultura de divulgación responsable y colaboración de la industria, aumentar el compromiso en la comunidad de seguridad y permitir a los investigadores a practicar sus habilidades, agregarán. Sin embargo, el NCSC y AISI advirtieron que podría haber gastos generales significativos asociados con el triado y la gestión de informes de amenazas, y que los desarrolladores participantes primero deben tener buenas prácticas de seguridad fundamentales. The Ingredients of a Good Disclosure Program The blog outlined several best practice principles for developing effective public disclosure programs in the field of safeguard bypass threats: A clearly defined scope to help participants understand what success looks like Internal reviews and initially discovered weaknesses to be handled before the program is launched Reports to be easy to track and reproduce, such as via unique IDs, and copy and share tools The NCSC and AISI noted that the presence of such a El programa no hace que un modelo sea más seguro o seguro, y alentó más investigaciones sobre preguntas como: ¿Pueden otras áreas de ciberseguridad ofrecer herramientas o enfoques útiles para pedir prestado? ¿Qué incentivos deben ofrecerse a los participantes del programa? ¿Cómo se deben mitigar las debilidades de salvaguardia descubierta? ¿Existen métodos para la colaboración intersectorial que puedan respaldar el manejo de ataques que se transfieren a través de modelos y programas? ¿Cómo debemos juzgar la gravedad de las debilidades de derivación de salvaguardia, especialmente cuando no conocemos el contexto de despliegue? ¿Qué tan público y abierto deberían ser tales programas?