Anthropic lanza un fondo para medir las capacidades de los modelos de IA

La investigación en IA avanza a pasos agigantados, pero nuestra capacidad para evaluar sus capacidades y riesgos potenciales parece estar rezagada. Para salvar esta brecha crítica y reconocer las limitaciones actuales en los ecosistemas de evaluación de terceros, Anthropic ha iniciado una iniciativa para invertir en el desarrollo de puntos de referencia sólidos y relevantes para la seguridad para evaluar las capacidades y los riesgos avanzados de la IA. «Un ecosistema de evaluación sólido de terceros es esencial para evaluar las capacidades y los riesgos de la IA, pero el panorama actual de evaluaciones es limitado», dijo Anthropic en una publicación de blog. «El desarrollo de evaluaciones de alta calidad y relevantes para la seguridad sigue siendo un desafío, y la demanda está superando la oferta. Para abordar esto, hoy presentamos una nueva iniciativa para financiar evaluaciones desarrolladas por organizaciones de terceros que puedan medir de manera efectiva las capacidades avanzadas en los modelos de IA». Anthropic se diferencia de otros pares de IA al mostrarse como una empresa de IA responsable y que prioriza la seguridad. La empresa ha invitado a las partes interesadas a enviar propuestas a través de su formulario de solicitud, en particular aquellas que aborden las áreas de enfoque de alta prioridad. La iniciativa de Anthropic llega en un momento crucial en el que la demanda de evaluaciones de IA de alta calidad está superando rápidamente la oferta. La empresa tiene como objetivo financiar a organizaciones de terceros para desarrollar nuevas evaluaciones que puedan medir de manera eficaz las capacidades avanzadas de IA, elevando así todo el campo de la seguridad de la IA. «Estamos buscando evaluaciones que nos ayuden a medir los niveles de seguridad de IA (ASL) definidos en nuestra Política de escalamiento responsable», continuó el anuncio. «Estos niveles determinan los requisitos de seguridad y protección para modelos con capacidades específicas». La iniciativa priorizará tres áreas principales: evaluaciones del nivel de seguridad de la IA, métricas avanzadas de capacidad y seguridad e infraestructura para desarrollar evaluaciones. Cada área aborda desafíos y oportunidades específicos dentro del campo de la IA. Priorizar las evaluaciones de seguridad Las evaluaciones del nivel de seguridad de la IA incluirán riesgos de ciberseguridad, químicos, biológicos, radiológicos y nucleares (CBRN), autonomía del modelo y otros riesgos de seguridad nacional. Las evaluaciones medirán los niveles de seguridad de la IA definidos en la Política de escalamiento responsable de Anthropic, lo que garantiza que los modelos se desarrollen e implementen de manera responsable. «Las evaluaciones ASL sólidas son cruciales para garantizar que desarrollemos e implementemos nuestros modelos de manera responsable», enfatizó Anthropic. «Las evaluaciones efectivas en este dominio pueden parecerse a los nuevos desafíos de Capture The Flag (CTF) sin soluciones disponibles públicamente. Las evaluaciones actuales a menudo se quedan cortas, ya sea por ser demasiado simplistas o por tener soluciones fácilmente accesibles en línea». La empresa también ha invitado a soluciones para abordar cuestiones críticas como las amenazas a la seguridad nacional que potencialmente plantean los sistemas de IA. «Los sistemas de IA tienen el potencial de afectar significativamente la seguridad nacional, la defensa y las operaciones de inteligencia de actores estatales y no estatales», agregó el anuncio. «Estamos comprometidos con el desarrollo de un sistema de alerta temprana para identificar y evaluar estos riesgos emergentes complejos». Más allá de la seguridad: medición de capacidades avanzadas Más allá de la seguridad, el fondo tiene como objetivo desarrollar puntos de referencia que evalúen el espectro completo de las capacidades y los riesgos potenciales de un modelo de datos. Esto incluye evaluaciones para la investigación científica, donde Anthropic imagina modelos capaces de abordar tareas complejas como el diseño de nuevos experimentos o protocolos de resolución de problemas. «La infraestructura, las herramientas y los métodos para desarrollar evaluaciones serán fundamentales para lograr pruebas más eficientes y efectivas en toda la comunidad de IA», afirma el anuncio. Anthropic tiene como objetivo agilizar el desarrollo de evaluaciones de alta calidad mediante la financiación de herramientas y plataformas que faciliten a los expertos en la materia la creación de evaluaciones sólidas sin necesidad de habilidades de codificación. «Además de las evaluaciones de ASL, nos interesa obtener métricas avanzadas de capacidad y seguridad», explicó Anthropic. «Estas métricas proporcionarán una comprensión más completa de las fortalezas y los riesgos potenciales de nuestros modelos». Construir un ecosistema de evaluación más eficiente Anthropic enfatizó que desarrollar evaluaciones efectivas es un desafío y describió los principios clave para crear evaluaciones sólidas. Entre ellas, se incluye garantizar que las evaluaciones sean lo suficientemente difíciles, que no estén incluidas en los datos de entrenamiento, que sean escalables y que estén bien documentadas. «Estamos interesados en financiar herramientas e infraestructura que agilicen el desarrollo de evaluaciones de alta calidad», afirmó Anthropic en el comunicado. «Estos serán fundamentales para lograr pruebas más eficientes y efectivas en toda la comunidad de IA». Sin embargo, la empresa reconoce que «desarrollar una gran evaluación es difícil» e «incluso algunos de los desarrolladores más experimentados caen en trampas comunes, e incluso las mejores evaluaciones no siempre son indicativas de los riesgos que pretenden medir». Para ayudar a los desarrolladores interesados a presentar sus propuestas y refinarlas, Anthropic dijo que facilitará las interacciones con expertos en el dominio del «Equipo Frontier Red, Finetuning, Trust & Safety» y otros equipos relevantes. Una solicitud de comentarios de Anthropic quedó sin respuesta. Con esta iniciativa, Anthropic está enviando un mensaje claro: la carrera por la IA avanzada no se puede ganar sin priorizar la seguridad. Al fomentar un ecosistema de evaluación más integral y sólido, están sentando las bases para un futuro en el que la IA beneficie a la humanidad sin plantear amenazas existenciales. Derechos de autor © 2024 IDG Communications, Inc.

Todo lo que necesitas saber sobre tecnología

Anthropic lanza un fondo para medir las capacidades de los modelos de IA

Deja una respuesta Cancelar la respuesta

Anthropic lanza un fondo para medir las capacidades de los modelos de IA

Los accionistas de Salesforce votan en contra de los salarios de Benioff y sus principales ejecutivos

Nueva vulnerabilidad en CPU Intel, ‘Indirector’, expone datos confidenciales

Deja una respuesta Cancelar la respuesta