Los métodos del equipo rojo introducidos por Anthropic cerrarán las brechas de seguridad

¡Es hora de celebrar a las mujeres increíbles que lideran el camino en IA! Nomine a sus líderes inspiradoras para los premios Women in AI Awards de VentureBeat hoy antes del 18 de junio. Obtenga más información El equipo rojo de IA está demostrando ser eficaz para descubrir brechas de seguridad que otros enfoques de seguridad no pueden ver, lo que evita que las empresas de IA utilicen sus modelos para producir contenido objetable. Anthropic publicó las pautas del equipo rojo de IA la semana pasada, uniéndose a un grupo de proveedores de IA que incluyen a Google, Microsoft, NIST, NVIDIA y OpenAI, que también han lanzado marcos comparables. El objetivo es identificar y cerrar las brechas de seguridad de los modelos de IA. Todos los marcos anunciados comparten el objetivo común de identificar y cerrar las crecientes brechas de seguridad en los modelos de IA. Son esas crecientes brechas de seguridad las que preocupan a los legisladores y formuladores de políticas y presionan por una IA más segura y confiable. La Orden Ejecutiva (EO) sobre Inteligencia Artificial Segura, Protegida y Confiable (14110) del presidente Biden, que salió a la luz el 30 de octubre de 2018, dice que el NIST “establecerá pautas apropiadas (excepto para la IA utilizada como componente de un sistema nacional sistema de seguridad), incluidos procedimientos y procesos apropiados, para permitir a los desarrolladores de IA, especialmente de modelos básicos de doble uso, realizar pruebas de equipos rojos de IA para permitir la implementación de sistemas seguros y confiables”. La inscripción para VB Transform 2024 está abierta Únase a los líderes empresariales en San Francisco del 9 al 11 de julio para nuestro evento emblemático de IA. Conéctese con pares, explore las oportunidades y desafíos de la IA generativa y aprenda cómo integrar aplicaciones de IA en su industria. Regístrese ahora El NIST publicó dos borradores de publicaciones a finales de abril para ayudar a gestionar los riesgos de la IA generativa. Son recursos complementarios del Marco de gestión de riesgos de IA (AI RMF) y del Marco de desarrollo de software seguro (SSDF) del NIST. La Oficina Federal de Seguridad de la Información (BSI) de Alemania ofrece equipos rojos como parte de su marco más amplio IT-Grundschutz. Australia, Canadá, la Unión Europea, Japón, los Países Bajos y Singapur cuentan con marcos notables. El Parlamento Europeo aprobó la Ley de Inteligencia Artificial de la UE en marzo de este año. Los modelos de IA de Red Teaming se basan en iteraciones de técnicas aleatorias. Red Teaming es una técnica que prueba interactivamente modelos de IA para simular ataques diversos e impredecibles, con el objetivo de determinar dónde están sus áreas fuertes y débiles. Los modelos de IA generativa (genAI) son excepcionalmente difíciles de probar, ya que imitan el contenido generado por humanos a escala. El objetivo es lograr que los modelos hagan y digan cosas para las que no están programados, incluidos los prejuicios que emergen. Confían en los LLM para automatizar escenarios de ataque y generación de avisos para encontrar y corregir las debilidades del modelo a escala. Los modelos pueden ser fácilmente liberados para crear discursos de odio, pornografía, utilizar material protegido por derechos de autor o regurgitar datos de origen, incluidos números de teléfono y de seguridad social. Una entrevista reciente de VentureBeat con el jailbreaker más prolífico de ChatGPT y otros LLM líderes ilustra por qué el equipo rojo debe adoptar un enfoque multimodal y multifacético ante el desafío. El valor del Red Teaming para mejorar la seguridad del modelo de IA sigue demostrando ser en competiciones de toda la industria. Uno de los cuatro métodos que Anthropic menciona en su publicación de blog es el equipo rojo de colaboración colectiva. La DEF CON del año pasado organizó el primer Desafío Generative Red Team (GRT), considerado uno de los usos más exitosos de las técnicas de crowdsourcing. Los modelos fueron proporcionados por Anthropic, Cohere, Google, Hugging Face, Meta, Nvidia, OpenAI y Stability. Los participantes en el desafío probaron los modelos en una plataforma de evaluación desarrollada por Scale AI. Anthropic publica su estrategia de equipo rojo de IA Al publicar sus métodos, Anthropic enfatiza la necesidad de procesos de prueba sistemáticos y estandarizados que escale y revela que la falta de estándares ha ralentizado el progreso en el equipo rojo de IA en toda la industria. «En un esfuerzo por contribuir a este objetivo, compartimos una descripción general de algunos de los métodos de formación de equipos rojos que hemos explorado y demostramos cómo se pueden integrar en un proceso iterativo desde la formación de equipos rojos cualitativos hasta el desarrollo de evaluaciones automatizadas», escribe Anthropic en la publicación del blog. Los cuatro métodos que Anthropic menciona incluyen la formación de equipos rojos de expertos en un dominio específico, el uso de modelos de lenguaje para formar equipos rojos, la formación de equipos rojos en nuevas modalidades y la formación de equipos rojos generales de duración indefinida. El enfoque de Anthropic hacia los equipos rojos garantiza que los conocimientos del intermediario humano enriquezcan y proporcionen inteligencia contextual sobre los resultados cuantitativos de otras técnicas de equipos rojos. Existe un equilibrio entre la intuición y el conocimiento humanos y los datos de texto automatizados que necesitan ese contexto para guiar cómo se actualizan los modelos y se hacen más seguros. Un ejemplo de esto es cómo Anthropic apuesta por la formación de equipos de expertos en un dominio específico confiando en expertos y al mismo tiempo priorizando las pruebas de vulnerabilidad de políticas (PVT), una técnica cualitativa para identificar e implementar salvaguardas de seguridad para muchas de las áreas más desafiantes en las que se encuentran. La interferencia electoral, el extremismo, el discurso de odio y la pornografía son algunas de las muchas áreas en las que es necesario perfeccionar los modelos para reducir los prejuicios y los abusos. Todas las empresas de IA que han lanzado un marco de equipo rojo de IA están automatizando sus pruebas con modelos. En esencia, están creando modelos para lanzar ataques aleatorios e impredecibles que muy probablemente conducirán a un comportamiento objetivo. «A medida que los modelos se vuelven más capaces, estamos interesados en formas en que podríamos usarlos para complementar las pruebas manuales con equipos rojos automatizados realizados por los propios modelos», dice Anthropic. Basándose en una dinámica de equipo rojo/equipo azul, Anthropic utiliza modelos para generar ataques en un intento de provocar un comportamiento objetivo, basándose en técnicas de equipo rojo que producen resultados. Esos resultados se utilizan para afinar el modelo y hacerlo más resistente y resistente contra ataques similares, lo cual es fundamental para el equipo azul. Anthropic señala que «podemos ejecutar este proceso repetidamente para diseñar nuevos vectores de ataque e, idealmente, hacer que nuestros sistemas sean más robustos ante una variedad de ataques adversarios». El equipo rojo multimodal es una de las áreas más fascinantes y necesarias que persigue Anthropic. Probar modelos de IA con entrada de imagen y audio es uno de los más difíciles de lograr, ya que los atacantes han incrustado con éxito texto en imágenes que pueden redirigir los modelos para eludir las salvaguardas, como lo han demostrado los ataques de inyección rápida multimodal. La serie de modelos Claude 3 acepta información visual en una amplia variedad de formatos y proporciona resultados basados en texto en las respuestas. Anthropic escribe que realizaron pruebas exhaustivas de las multimodalidades de Claude 3 antes de lanzarlo para reducir los riesgos potenciales que incluyen actividad fraudulenta, extremismo y amenazas a la seguridad infantil. El equipo rojo general abierto equilibra los cuatro métodos con más conocimiento e inteligencia contextual del intermediario humano. Los equipos rojos de crowdsourcing y los equipos rojos basados en la comunidad son esenciales para obtener conocimientos que no están disponibles a través de otras técnicas. Proteger los modelos de IA es un objetivo en movimiento La formación de equipos rojos es esencial para proteger los modelos y garantizar que sigan siendo seguros y confiables. El arte de los atacantes continúa acelerándose más rápido de lo que muchas empresas de inteligencia artificial pueden seguir, lo que demuestra aún más cómo se encuentra esta área en sus inicios. Automatizar el equipo rojo es un primer paso. Combinar el conocimiento humano y las pruebas automatizadas es clave para el futuro de la estabilidad y la seguridad del modelo. VB Daily ¡Manténgase informado! Reciba las últimas noticias en su bandeja de entrada diariamente. Al suscribirse, acepta los Términos de servicio de VentureBeat. Gracias por suscribirte. Consulte más boletines de VB aquí. Ocurrió un error.

Todo lo que necesitas saber sobre tecnología

Los métodos del equipo rojo introducidos por Anthropic cerrarán las brechas de seguridad

Deja una respuesta Cancelar la respuesta

Los métodos del equipo rojo introducidos por Anthropic cerrarán las brechas de seguridad

¡Obtén un 20% de descuento en el micrófono Shure MV7X en esta LOCA OFERTA!

Obtenga Microsoft Office Pro 2021 por solo $ 50

Deja una respuesta Cancelar la respuesta