Anthropic está lanzando un programa para financiar el desarrollo de nuevos tipos de puntos de referencia capaces de evaluar el rendimiento y el impacto de los modelos de IA, incluidos los modelos generativos como su propio Claude. El programa de Anthropic, presentado el lunes, repartirá pagos a organizaciones de terceros que puedan, como dice la empresa en una publicación de blog, «medir eficazmente las capacidades avanzadas en los modelos de IA». Los interesados ​​pueden enviar solicitudes para ser evaluados de forma continua. «Nuestra inversión en estas evaluaciones tiene como objetivo elevar todo el campo de la seguridad de la IA, proporcionando herramientas valiosas que beneficien a todo el ecosistema», escribió Anthropic en su blog oficial. «El desarrollo de evaluaciones de alta calidad y relevantes para la seguridad sigue siendo un desafío, y la demanda está superando la oferta». Como hemos destacado antes, la IA tiene un problema de evaluación comparativa. Los puntos de referencia para la IA que se citan con más frecuencia en la actualidad no logran captar bien cómo la persona promedio usa realmente los sistemas que se están probando. También hay dudas sobre si algunos puntos de referencia, en particular los publicados antes del amanecer de la IA generativa moderna, incluso miden lo que pretenden medir, dada su antigüedad. La solución de alto nivel y más difícil de lo que parece que propone Anthropic es la creación de puntos de referencia desafiantes con un enfoque en la seguridad de la IA y las implicaciones sociales a través de nuevas herramientas, infraestructura y métodos. La empresa pide específicamente pruebas que evalúen la capacidad de un modelo para realizar tareas como llevar a cabo ciberataques, «mejorar» armas de destrucción masiva (por ejemplo, armas nucleares) y manipular o engañar a las personas (por ejemplo, mediante deepfakes o desinformación). Para los riesgos de la IA relacionados con la seguridad y la defensa nacional, Anthropic dice que está comprometida con el desarrollo de una especie de «sistema de alerta temprana» para identificar y evaluar los riesgos, aunque no revela en la publicación del blog lo que podría implicar dicho sistema. Anthropic también dice que pretende que su nuevo programa respalde la investigación de puntos de referencia y tareas «de extremo a extremo» que investiguen el potencial de la IA para ayudar en el estudio científico, conversar en varios idiomas y mitigar los sesgos arraigados, así como la toxicidad de la autocensura. Para lograr todo esto, Anthropic imagina nuevas plataformas que permitan a los expertos en la materia desarrollar sus propias evaluaciones y ensayos a gran escala de modelos que involucren a «miles» de usuarios. La compañía dice que ha contratado a un coordinador a tiempo completo para el programa y que podría comprar o expandir proyectos que crea que tienen potencial de escalar. «Ofrecemos una gama de opciones de financiación adaptadas a las necesidades y la etapa de cada proyecto», escribe Anthropic en la publicación, aunque un portavoz de Anthropic se negó a proporcionar más detalles sobre esas opciones. «Los equipos tendrán la oportunidad de interactuar directamente con los expertos en el dominio de Anthropic del equipo rojo de la frontera, el equipo de ajuste fino, el equipo de confianza y seguridad y otros equipos relevantes». El esfuerzo de Anthropic por respaldar nuevos puntos de referencia de IA es loable, suponiendo, por supuesto, que haya suficiente dinero y mano de obra detrás. Pero dadas las ambiciones comerciales de la empresa en la carrera de la IA, puede ser difícil confiar completamente en ella. En la entrada del blog, Anthropic es bastante transparente sobre el hecho de que quiere que ciertas evaluaciones que financia se alineen con las clasificaciones de seguridad de la IA que desarrolló (con algunas aportaciones de terceros como la organización de investigación de IA sin fines de lucro METR). Eso está dentro de la prerrogativa de la empresa. Pero también puede obligar a los solicitantes del programa a aceptar definiciones de IA «segura» o «arriesgada» con las que podrían no estar de acuerdo. Es probable que una parte de la comunidad de IA también esté en desacuerdo con las referencias de Anthropic a los riesgos «catastróficos» y «engañosos» de la IA, como los riesgos de las armas nucleares. Muchos expertos dicen que hay poca evidencia que sugiera que la IA tal como la conocemos adquirirá capacidades que acaben con el mundo y que superen en inteligencia a los humanos en un futuro próximo, si es que alguna vez lo hace. Las afirmaciones de una inminente «superinteligencia» solo sirven para desviar la atención de los urgentes problemas regulatorios de la IA del día, como las tendencias alucinatorias de la IA, añaden estos expertos. En su artículo, Anthropic escribe que espera que su programa sirva como “catalizador del progreso hacia un futuro en el que la evaluación integral de la IA sea un estándar de la industria”. Esa es una misión con la que pueden identificarse los numerosos esfuerzos abiertos y no afiliados a corporaciones para crear mejores puntos de referencia de la IA. Pero aún queda por ver si esos esfuerzos están dispuestos a unir fuerzas con un proveedor de IA cuya lealtad recae en última instancia en los accionistas.