Plan de equipo rojo de Openai: hacer del agente de chatgpt una fortaleza de IA

¿Quieres ideas más inteligentes en tu bandeja de entrada? Regístrese en nuestros boletines semanales para obtener solo lo que importa a los líderes de IA, datos y seguridad empresariales. Suscríbase ahora en caso de que se lo haya perdido, OpenAi debutó ayer una nueva y poderosa característica para ChatGPT y con ella, una gran cantidad de nuevos riesgos de seguridad y ramificaciones. Llamado «Agente de ChatGPT», esta nueva característica es un modo opcional que los suscriptores de pago de chatgpt pueden participar haciendo clic en «herramientas» en el cuadro de entrada de solicitud y seleccionando el «modo de agente», en cuyo punto, pueden pedirle a ChatGPT que inicie sesión en su correo electrónico y otras cuentas web; escribir y responder a los correos electrónicos; descargar, modificar y crear archivos; Y realice una serie de otras tareas en su nombre, de forma autónoma, al igual que una persona real que usa una computadora con sus credenciales de inicio de sesión. Obviamente, esto también requiere que el usuario confíe en el agente de ChatGPT para que no haga nada problemático o nefasto, o que filme sus datos e información confidencial. También plantea mayores riesgos para un usuario y su empleador que el CHATGPT regular, que no puede iniciar sesión en cuentas web o modificar archivos directamente. Keren Gu, miembro del Equipo de Investigación de Seguridad de OpenAI, comentó en X que «hemos activado nuestras salvaguardas más fuertes para el agente de ChatGPT. Es el primer modelo que hemos clasificado como alta capacidad en biología y química bajo nuestro marco de preparación. Aquí está por eso que eso es importante, y lo que estamos haciendo para mantenerlo seguro». La serie AI Impact regresa a San Francisco – 5 de agosto La próxima fase de IA está aquí – ¿Estás listo? Únase a los líderes de Block, GSK y SAP para una visión exclusiva de cómo los agentes autónomos están remodelando los flujos de trabajo empresariales, desde la toma de decisiones en tiempo real hasta la automatización de extremo a extremo. Asegure su lugar ahora – El espacio es limitado: https://bit.ly/3guuplf Entonces, ¿cómo manejó OpenAI todos estos problemas de seguridad? La misión del equipo rojo que analizó la tarjeta del sistema ChatGPT de OpenAi, el «equipo de lectura» empleado por la compañía para probar la función enfrentó una misión desafiante: específicamente, 16 investigadores de seguridad de doctorado que recibieron 40 horas para probarla. A través de pruebas sistemáticas, el equipo rojo descubrió siete exploits universales que podrían comprometer el sistema, revelando vulnerabilidades críticas en cómo los agentes de IA manejan las interacciones en el mundo real. Lo que siguió a continuación fueron las extensas pruebas de seguridad, gran parte de la misma basada en el equipo rojo. La Red Red Teaming presentó 110 ataques, desde inyecciones rápidas hasta intentos de extracción de información biológica. Dieciséis excedieron los umbrales de riesgo interno. Cada hallazgo dio a los ingenieros de Operai las ideas que necesitaban para escribir y implementar las correcciones antes del lanzamiento. Los resultados hablan por sí mismos en los resultados publicados en la tarjeta del sistema. El agente de ChatGPT surgió con mejoras de seguridad significativas, incluido el rendimiento del 95% contra ataques de instrucción irrelevantes del navegador visual y protectores biológicos y químicos robustos. Los equipos rojos expusieron siete exploits universales de la red de equipo rojo de OpenAi se compusieron a 16 investigadores con doctorados relevantes para la bioseguridad que presentaron 110 intentos de ataque durante el período de prueba. Dieciséis excedieron los umbrales de riesgo interno, revelando vulnerabilidades fundamentales en cómo los agentes de IA manejan las interacciones del mundo real. Pero el verdadero avance provino del acceso sin precedentes de AISI del Reino Unido a las cadenas de razonamiento internas del agente ChatGPT y el texto de la política. Es cierto que esa es la inteligencia atacantes regulares nunca poseerían. Más de cuatro rondas de pruebas, el Reino Unido AISI obligó a OpenAi a ejecutar siete exploits universales que tenían el potencial de comprometer cualquier conversación: Ataque vectores que forzaron la tasa de tipos de ataque manual de OpenAi (pre-fix) TargetImpactvisual Browser oculto Instrucciones ocultas33%Popes web Popes de datos activos Exfiltración de la Guardia Connector del conector del conector de la expotratamiento Notot de documento Documento Forzido Forzón Forzón Forzón de fugas de fugas de fugas de la red Acciones del sitio de ataques Sesión Completa Sesión Compromisebiológica Extracción de información16 Las presentaciones excedieron el umbral de la arma de conocimiento de conocimiento de FAR. A pesar de 40 horas de pruebas que revelan solo tres vulnerabilidades parciales, identificaron que los mecanismos de seguridad actuales se basaron en gran medida en el monitoreo durante los procesos de razonamiento y uso de herramientas, que los investigadores consideraron un posible punto de falla potencial si se comprometió. Cómo Red Teaming ayudó a convertir las vulnerabilidades de ChatGPT en la respuesta de una fortaleza Openai a los resultados del equipo rojo redefinió los segmentos completos de la arquitectura del agente de chatgpt. One of the many initiatives undertaken including building a dual-layer inspection architecture that monitors 100% of production traffic in real-time, achieving these measurable improvements: Security improvements after red team discoveries Defense MetricPrevious ModelsChatGPT AgentImprovementIrrelevant Instructions (Visual Browser)82%95%+13%In-Context Data Exfiltration75%78%+3%Active Data Exfiltración58% 67%+9% de fiabilidad del sistema basado en muestreo 100% CoverageComplety Monitoreo de la arquitectura Funciona como este: Primer nivel: un clasificador rápido con 96% de recuerdo de un segundo nivel de contenido suspicioso: un modelo de razonamiento con 84% de análisis de recuerdo de 84% para interacciones marcadas para amenazas reales, pero las defensas técnicas solo cuentan solo en la historia. OpenAI tomó decisiones de seguridad difíciles que reconocen algunas operaciones de IA requieren restricciones significativas para la ejecución autónoma segura. Según las vulnerabilidades descubiertas, OpenAI implementó las siguientes contramedidas en su modelo: Activación del modo de reloj: cuando el agente de ChatGPT accede a contextos confidenciales como cuentas bancarias o de correo electrónico, el sistema congela toda actividad si los usuarios navegan. Esto es en respuesta directa a los intentos de exfiltración de datos descubiertos durante las pruebas. Características de la memoria deshabilitada: a pesar de ser una funcionalidad central, la memoria está completamente deshabilitada en el lanzamiento para evitar que los ataques de fuga de datos incrementales sean demostrados. Restricciones de terminal: Acceso a la red Limited para obtener solo solicitudes, bloqueando las vulnerabilidades de ejecución de comandos que explotaron los investigadores. Protocolo de remediación rápida: un nuevo sistema que repara las vulnerabilidades a las pocas horas del descubrimiento, desarrollado después de que los equipos rojos mostraron qué tan rápido se podían extender las exploits. Solo durante las pruebas previas al lanzamiento, este sistema identificó y resolvió 16 vulnerabilidades críticas que los equipo rojo habían descubierto. Una llamada de atención de riesgo biológico reveló el potencial de que el agente de ChatGPT podría comprometerse y conducir a mayores riesgos biológicos. Dieciséis participantes experimentados de la Red Red Teaming Network, cada uno con doctorados relevantes para la bioseguridad, intentaron extraer información biológica peligrosa. Sus presentaciones revelaron que el modelo podría sintetizar la literatura publicada sobre la modificación y la creación de amenazas biológicas. En respuesta a los hallazgos de los equipo rojo, OpenAI clasificó el agente de ChatGPT como «alta capacidad» para los riesgos biológicos y químicos, no porque encontraron evidencia definitiva del potencial de armas, sino como una medida de precaución basada en los hallazgos del equipo rojo. Esto se activa: los clasificadores de seguridad siempre activos escanean el 100% del tráfico Un clasificador de actualidad que logra el 96% de retiro para el contenido relacionado con la biología Un monitor de razonamiento con el 84% de retiro para el contenido de arma de arma Un programa de recompensa biográfica de biográficos para el descubrimiento de vulnerabilidad en curso que los equipos rojos enseñaron sobre la seguridad de AI, las presentaciones de ataque de 110 por 110 revelaron patrones que forzaron los cambios fundamentales en el abre de seguridad de los equipos abiertos. Incluyen lo siguiente: Persistencia sobre el poder: los atacantes no necesitan hazañas sofisticadas, todo lo que necesitan es más tiempo. Los equipo rojo mostraron cómo los ataques de pacientes y incrementales podrían eventualmente comprometer los sistemas. Los límites de confianza son ficción: cuando su agente de IA puede acceder a Google Drive, navegar por la web y ejecutar el código, los perímetros de seguridad tradicionales se disuelven. Los equipo rojo explotaron las brechas entre estas capacidades. El monitoreo no es opcional: el descubrimiento de que el monitoreo basado en el muestreo perdió ataques críticos condujo al requisito de cobertura del 100%. Speed Matters: los ciclos de parche tradicionales medidos en semanas no tienen valor contra ataques de inyección inmediatos que pueden extenderse al instante. El rápido protocolo de remediación parche las vulnerabilidades en cuestión de horas. Operai está ayudando a crear una nueva línea de base de seguridad para la IA empresarial para CISOS que evalúa la implementación de IA, los descubrimientos del equipo rojo establecen requisitos claros: Protección cuantificable: la tasa de defensa del 95% del agente de chatgpt contra los vectores de ataque documentados establece el punto de referencia de la industria. Los matices de las muchas pruebas y resultados definidos en la tarjeta del sistema explican el contexto de cómo lograron esto y es una lectura obligada para cualquier persona involucrada con la seguridad del modelo. Visibilidad completa: el 100% del monitoreo del tráfico ya no es aspiracional. Las experiencias de OpenAI ilustran por qué es obligatorio dada la facilidad con que los equipos rojos pueden ocultar ataques en cualquier lugar. Respuesta rápida: Horas, no semanas, para parchar vulnerabilidades descubiertas. Límites forzados: algunas operaciones (como el acceso a la memoria durante las tareas confidenciales) deben deshabilitarse hasta que se demuestre. Las pruebas de AISI del Reino Unido resultaron particularmente instructivas. Los siete ataques universales que identificaron fueron parcheados antes del lanzamiento, pero su acceso privilegiado a los sistemas internos reveló vulnerabilidades que eventualmente serían descubiertas por los adversarios determinados. «Este es un momento crucial para nuestro trabajo de preparación», escribió GU en X. «Antes de alcanzar la alta capacidad, la preparación se trataba de analizar las capacidades y la planificación de salvaguardas. Ahora, para los modelos de agentes y futuros más capaces, las salvaguardas de preparación se han convertido en un requisito operativo». Los equipos rojos son fundamentales para construir modelos de IA más seguros y más seguros, las siete exploits universales descubiertos por los investigadores y los 110 ataques de la Red Red Team de OpenAI se convirtieron en el crisol que falsificó el agente de ChatGPT. Al revelar exactamente cómo los agentes de IA podrían ser armados, los equipos rojos forzaron la creación del primer sistema de IA donde la seguridad no es solo una característica. Es la base. Los resultados del agente de ChatGPT demuestran la efectividad de Red Teaming: bloquear el 95% de los ataques del navegador visual, atrapar el 78% de los intentos de exfiltración de datos, monitorear cada interacción. En la acelerada carrera armamentista de IA, las compañías que sobreviven y prosperan serán aquellas que vean a sus equipos rojos como arquitectos centrales de la plataforma que lo llevan a los límites de la seguridad. Insights diarias sobre casos de uso de negocios con VB diariamente Si desea impresionar a su jefe, VB Daily lo tiene cubierto. Le damos la cuenta interior de lo que las empresas están haciendo con la IA generativa, desde cambios regulatorios hasta implementaciones prácticas, por lo que puede compartir ideas para el ROI máximo. Lea nuestra Política de privacidad Gracias por suscribirse. Mira más boletines de VB aquí. Ocurrió un error.

Todo lo que necesitas saber sobre tecnología

Plan de equipo rojo de Openai: hacer del agente de chatgpt una fortaleza de IA

Deja una respuesta Cancelar la respuesta

Plan de equipo rojo de Openai: hacer del agente de chatgpt una fortaleza de IA

Lo siento, Samsung, si las filtraciones son verdaderas, el Pixel 10 Pro Fold obtiene mi voto

Este modelo de Apple Watch es mi favorito y lo uso a diario, en este momento, tiene más de 30% de descuento.

Deja una respuesta Cancelar la respuesta