Westend61/Getty ImagesLos modelos de lenguaje grande (LLM) generalmente se evalúan en función de su capacidad para desempeñarse bien en diferentes áreas, como razonamiento, matemáticas, codificación e inglés, ignorando factores importantes como seguridad, privacidad, infracción de derechos de autor y más. Para cerrar esa brecha de información, OpenAI lanzó Tarjetas de sistema para sus modelos. El jueves, OpenAI lanzó la Tarjeta de sistema GPT-4o, un informe exhaustivo que describe la seguridad del LLM en función de las evaluaciones de riesgo de acuerdo con el Marco de preparación de OpenAI, el trabajo en equipo externo y más. Estamos compartiendo la Tarjeta de sistema GPT-4o, una evaluación de seguridad de extremo a extremo que describe lo que hemos hecho para rastrear y abordar los desafíos de seguridad, incluidos los riesgos del modelo de frontera de acuerdo con nuestro Marco de preparación. https://t.co/xohhlUquEr— OpenAI (@OpenAI) 8 de agosto de 2024 La Tarjeta de puntuación refleja las puntuaciones en cuatro categorías principales: ciberseguridad, amenazas biológicas, persuasión y autonomía del modelo. En las tres primeras categorías, OpenAI busca ver si el LLM puede ayudar a hacer avanzar las amenazas en cada sector. En la última, la empresa mide si el modelo muestra signos de realizar acciones autónomas que serían necesarias para mejorarse a sí mismo. Además: ¿Qué es Project Strawberry? Explicación de la misteriosa herramienta de IA de OpenAI Las categorías se califican como «baja», «media», «alta» y «crítica». Los modelos con puntuaciones medias o inferiores pueden implementarse, mientras que los modelos con puntuaciones altas o inferiores deben desarrollarse más. En general, OpenAI le dio a GPT-4o una calificación «media». GPT-4o fue calificado como «bajo» en ciberseguridad, amenazas biológicas y autonomía del modelo. Sin embargo, recibió un «medio» límite en la categoría de persuasión debido a su capacidad para crear artículos sobre temas políticos que fueron más persuasivos que las alternativas profesionales escritas por humanos tres de cada 12 veces. Captura de pantalla de Sabrina Ortiz/ZDNETEl informe también compartió información sobre los datos con los que se entrenó GPT-4o, que llegan hasta octubre de 2023 y se obtuvieron de datos seleccionados disponibles públicamente y datos patentados de asociaciones, incluida la asociación de OpenAI con Shutterstock para entrenar modelos de generación de imágenes. Además: Probé 7 detectores de contenido de IA: están mejorando drásticamente en la identificación de plagioAdemás, el informe incluyó cómo la empresa mitiga los riesgos al implementar el modelo para abordar los desafíos de seguridad, incluida su capacidad para generar contenido con derechos de autor, discurso erótico o violento, voces no autorizadas, inferencias sin fundamento y más. Puede acceder al informe completo de 32 páginas aquí para obtener más información sobre los detalles. El informe sigue las recientes demandas de los legisladores estadounidenses de que OpenAI comparta datos sobre sus prácticas de seguridad después de que un denunciante revelara que OpenAI impidió que el personal alertara a las autoridades sobre los riesgos tecnológicos e hizo que los empleados renunciaran a sus derechos federales a la compensación de los denunciantes.