Las pruebas transversales de Operai-Anthrópica exponen los riesgos de jailbreak y mal uso: lo que las empresas deben agregar a las evaluaciones GPT-5

¿Quieres ideas más inteligentes en tu bandeja de entrada? Regístrese en nuestros boletines semanales para obtener solo lo que importa a los líderes de IA, datos y seguridad empresariales. Suscripción ahora OpenAi y Anthrope a menudo pueden enfrentar sus modelos de cimientos entre sí, pero las dos compañías se unieron para evaluar los modelos públicos de los demás para probar la alineación. Las compañías dijeron que creían que la responsabilidad y la seguridad de evaluación cruzada proporcionarían más transparencia en lo que estos modelos poderosos podrían hacer, lo que permite a las empresas elegir modelos que funcionen mejor para ellos. «Creemos que este enfoque respalda la evaluación responsable y transparente, ayudando a garantizar que los modelos de cada laboratorio continúen siendo probados contra escenarios nuevos y desafiantes», dijo Openii en sus hallazgos. Ambas compañías encontraron que los modelos de razonamiento, como el 03 y O4-Mini y Claude 4 de OpenAI, resisten los jailbreaks, mientras que los modelos generales de chat como GPT-4.1 eran susceptibles al mal uso. Evaluaciones como esta pueden ayudar a las empresas a identificar los riesgos potenciales asociados con estos modelos, aunque debe tenerse en cuenta que GPT-5 no es parte de la prueba. AI Scaling alcanza sus límites de potencia de límites, el aumento de los costos de los tokens y los retrasos de inferencia están remodelando Enterprise AI. Únase a nuestro salón exclusivo para descubrir cómo son los mejores equipos: convertir la energía en una ventaja estratégica arquitectando una inferencia eficiente para las ganancias de rendimiento real que desbloquean el ROI competitivo con sistemas de IA sostenibles asegura su lugar para mantenerse a la vanguardia: https://bit.ly/4mwgngo estas seguridad y las evaluaciones de alineación de transparencia siguen a los usuarios de los usuarios, principalmente de los modelos de chat de chat. Desde entonces, OpenAi ha retrasado las actualizaciones que causaron la sycophancy. «Estamos principalmente interesados en comprender las propensiones modelo para una acción dañina», dijo Anthrope en su informe. «Nuestro objetivo es comprender las acciones más preocupantes que estos modelos pueden tratar de aprovechar cuando se les da la oportunidad, en lugar de centrarnos en la probabilidad del mundo real de que surjan tales oportunidades o la probabilidad de que estas acciones se completen con éxito». Operai señaló que las pruebas fueron diseñadas para mostrar cómo interactúan los modelos en un entorno intencionalmente difícil. Los escenarios que construyeron son principalmente casos de borde. Los modelos de razonamiento se aferran a la alineación de las pruebas cubiertas solo los modelos disponibles públicamente de ambas compañías: el soneto Claude 4 Opus y Claude 4 de Anthrope, y el soneto GPT-4O, GPT-4.1 O3 y O4-Mini de OpenAI. Ambas compañías relajaron las salvaguardas externas de los modelos. Operai probó las API públicas para los modelos Claude y predeterminó el uso de las capacidades de razonamiento de Claude 4. Anthrope dijo que no usaron O3-Pro Operai porque «no era compatible con la API que nuestras herramientas mejor admiten». El objetivo de las pruebas no era realizar una comparación de manzanas a manzanas entre modelos, sino determinar con qué frecuencia los modelos de idiomas grandes (LLM) se desviaron de la alineación. Ambas compañías aprovecharon el Marco de Evaluación de Sabotaje de Shade-Arena, que mostró que los modelos de Claude tenían tasas de éxito más altas en sutil sabotaje. «Estas pruebas evalúan las orientaciones de los modelos hacia situaciones difíciles o de alto riesgo en entornos simulados, en lugar de casos de uso ordinarios, y a menudo implican interacciones largas y de gran giro», informó Anthrope. «Este tipo de evaluación se está convirtiendo en un enfoque significativo para nuestro equipo de ciencias de la alineación, ya que es probable que atraiga comportamientos que tienen menos probabilidades de aparecer en las pruebas ordinarias de despliegue previamente con usuarios reales». Anthrope dijo que las pruebas como estas funcionan mejor si las organizaciones pueden comparar notas: «Dado que diseñar estos escenarios implica un enorme número de grados de libertad. Ningún equipo de investigación puede explorar el espacio completo de ideas de evaluación productiva solo». Los hallazgos mostraron que en general, los modelos de razonamiento funcionaban de manera robusta y pueden resistir la jailbreak. El O3 de Openai estaba mejor alineado que Claude 4 Opus, pero O4-Mini junto con GPT-4O y GPT-4.1 «a menudo parecían algo más preocupantes que cualquier modelo de Claude». GPT-4O, GPT-4.1 y O4-Mini también mostraron disposición a cooperar con el mal uso humano y dieron instrucciones detalladas sobre cómo crear drogas, desarrollar biowapons y, en custodia, planificar ataques terroristas. Ambos modelos de Claude tenían tasas más altas de rechazo, lo que significa que los modelos se negaron a responder consultas a las que no sabía las respuestas, para evitar las alucinaciones. Los modelos de las empresas mostraron «formas sobre la sycophancy» y, en algún momento, validaron las decisiones dañinas de los usuarios simulados. Lo que las empresas deben saber para las empresas, comprender los riesgos potenciales asociados con los modelos es invaluable. Las evaluaciones de modelos se han convertido en casi rigor para muchas organizaciones, con muchos marcos de pruebas y benchmarking ahora disponibles. Las empresas deben continuar evaluando cualquier modelo que usen, y con el lanzamiento de GPT-5, deben tener en cuenta estas pautas para ejecutar sus propias evaluaciones de seguridad: pruebe los modelos de razonamiento y no de condición, porque, si bien los modelos de razonamiento mostraron una mayor resistencia al mal uso, aún podrían ofrecer alucinaciones u otro comportamiento perjudicial. Benchmark entre proveedores ya que los modelos fallaban en diferentes métricas. Prueba de estrés para el mal uso y la sincancia, y obtenga una puntuación tanto la negativa como la utilidad de los que se niegan a mostrar las compensaciones entre la utilidad y las barandillas. Continúe con modelos de auditoría incluso después de la implementación. Si bien muchas evaluaciones se centran en el rendimiento, existen pruebas de alineación de seguridad de terceros. Por ejemplo, este de Cyata. El año pasado, Openai lanzó un método de enseñanza de alineación para sus modelos llamados recompensas basadas en reglas, mientras que Anthrope lanzó agentes de auditoría para verificar la seguridad del modelo. Insights diarias sobre casos de uso de negocios con VB diariamente Si desea impresionar a su jefe, VB Daily lo tiene cubierto. Le damos la cuenta interior de lo que las empresas están haciendo con la IA generativa, desde cambios regulatorios hasta implementaciones prácticas, por lo que puede compartir ideas para el ROI máximo. Lea nuestra Política de privacidad Gracias por suscribirse. Mira más boletines de VB aquí. Ocurrió un error.

Todo lo que necesitas saber sobre tecnología

Las pruebas transversales de Operai-Anthrópica exponen los riesgos de jailbreak y mal uso: lo que las empresas deben agregar a las evaluaciones GPT-5

Deja una respuesta Cancelar la respuesta

Las pruebas transversales de Operai-Anthrópica exponen los riesgos de jailbreak y mal uso: lo que las empresas deben agregar a las evaluaciones GPT-5

Perfección absoluta! Dreame Aqua10 Ultra Roller Complete Review

¿Buscas una acción rápida de juegos de dos jugadores? ¡Mira estos 30 juegos para Android!

Deja una respuesta Cancelar la respuesta