La startup de inteligencia artificial Anthropic ha decidido publicar las indicaciones del sistema para su modelo de lenguaje grande Claude, su buque insignia, como parte de un nuevo esfuerzo para mejorar la transparencia en el ecosistema de modelos privados. Las indicaciones del sistema comprenden un conjunto de reglas o instrucciones que dictan cómo un modelo debe responder a las consultas, describiendo exactamente a qué puede y no puede responder, así como el sentimiento incorporado en el resultado. Las instrucciones tienen como objetivo evitar que el modelo se comporte de manera maliciosa y dirigir sus respuestas hacia un tono y estilo uniformes, es decir, el de un asistente útil e inquisitivo. La decisión de hacer que esta información esté disponible públicamente ayudará a los desarrolladores, así como al público en general, a comprender mejor cómo funcionan realmente en la práctica estos modelos a menudo mistificados, dijo Anthropic. Los expertos han acogido con agrado la medida, describiéndola como un paso positivo en términos de ética de la IA, y que tiene como objetivo dar a la empresa una ventaja en la batalla contra competidores como OpenAI. La medida fue anunciada el 26 de agosto por Alex Albert, jefe de relaciones con los desarrolladores de Anthropic, quien reveló que las indicaciones del sistema recientemente reveladas se incluirán en Una nueva sección de lanzamiento en los documentos de Anthropic. En declaraciones a ITPro, Alastair Paterson, director ejecutivo y cofundador de la empresa de protección de datos Harmonic Security, dijo que la medida probablemente era un intento de presentar a Anthropic como líder del mercado en términos de transparencia y gobernanza responsable de la IA. Reciba nuestras últimas noticias, actualizaciones de la industria, recursos destacados y más. Regístrese hoy para recibir nuestro informe GRATUITO sobre ciberdelito y seguridad de la IA, recientemente actualizado para 2024. «Anthropic parece estar tratando de posicionarse como ‘más abierto’ que competidores como OpenAI y Google, lo que puede ayudar a diferenciarse en el mercado. OpenAI, en particular, ha sido criticada por no estar a la altura de ser «abierta» por nada menos que Elon Musk, por lo que, en todo caso, parecería un desafío directo a OpenAI». Un miembro destacado del programa de creación de GPT Builder de OpenAI, Nick Dobos, que ha creado una serie de GPT personalizados en la plataforma, expresó su apoyo a la medida en X, contrastando la apertura de Antropic con la de OpenAI. Las críticas a la transparencia de OpenAI no se han limitado a las partes externas, con un grupo de empleados actuales y anteriores escribiendo una carta abierta anónima advirtiendo que la empresa tenía fuertes incentivos para «evitar la supervisión efectiva» de sus modelos. «Las empresas de IA poseen información sustancial no pública sobre las capacidades y limitaciones de sus sistemas, la idoneidad de sus medidas de protección y los niveles de riesgo de diferentes tipos de daños. Sin embargo, actualmente solo tienen obligaciones débiles para compartir parte de esta información con los gobiernos, y ninguna con la sociedad civil. «No creemos que se pueda confiar en que todos lo compartan voluntariamente», afirmaba la carta. Las amenazas de ingeniería rápida no aumentaron significativamente con la decisión de Anthropic de hacerlo públicoLos cibercriminales podrían ser beneficiarios no deseados de la decisión de Anthropic de hacer públicos los avisos del sistema de Claude. Algunas partes interesadas de la industria han advertido que los actores de amenazas podrían aprovechar esta información para obtener una comprensión más profunda de las debilidades del sistema, que luego pueden explotarse en el futuro. Sin embargo, esta amenaza no debe exagerarse, según Peter van der Putten, director del AI Labat Pegasystems y profesor adjunto de IA en la Universidad de Leiden. Putten le dijo a ITPro que hacer públicos estos avisos era más importante que cualquier riesgo asociado. «Veo la decisión de publicar los mensajes del sistema como algo positivo y significativo desde la perspectiva de los principios éticos de la IA. Por otro lado, no se debe sobrestimar la importancia de los avisos del sistema ni exagerar los riesgos”, argumentó. Paterson llegó a una conclusión similar y agregó que Anthropic probablemente sopesó las amenazas potenciales asociadas con la medida frente a los beneficios. “Es probable que se haya llegado a la conclusión de que cualquier riesgo adicional que suponga proporcionar estos avisos del sistema se ve compensado por los beneficios de la publicidad y el valor de poder posicionarse como más virtuosos que sus competidores”. Vincenzo Ciancaglini, investigador senior de amenazas de Trend Micro, dijo a ITPro que los atacantes ya tenían varias formas de corromper los LLM sin necesidad de acceder a los avisos del sistema y, en muchos casos, intentan eliminar activamente estos avisos. “Entender el aviso del sistema para un LLM específico podría proporcionar información sobre el funcionamiento interno del propio LLM, lo que podría ayudar en algunas clases de jailbreaking. Sin embargo, hay muchas otras técnicas de jailbreaking que son independientes del aviso del sistema. Muchas veces, la inyección de mensajes comienza con intentar que el LLM olvide el mensaje del sistema”. Shaked Reiner, investigador principal de seguridad, estuvo de acuerdo con esta evaluación y agregó que los beneficios públicos de publicar los mensajes del sistema eran más importantes que cualquier aumento percibido en la amenaza de ingeniería de mensajes malintencionada. “Los atacantes inevitablemente tendrán en sus manos los mensajes del sistema, pero al ponerlos a disposición del público, la empresa empodera a los usuarios normales que de otra manera no tendrían acceso a esta información”, dijo Reiner a ITPro. “Como la humanidad aún está en las primeras etapas de nuestro viaje de IA, aún tenemos que establecer estándares de seguridad y protección adecuados. Creemos que compartir más información sobre modelos privados públicamente contribuirá al desarrollo de estos estándares”.