zf L/Getty ImagesHONG KONG — Parafraseando al fallecido John F. Kennedy, elegimos definir la IA de código abierto no porque sea fácil, sino porque es difícil; porque ese objetivo servirá para organizar y medir lo mejor de nuestras energías y habilidades. Stefano Maffulli, director ejecutivo de la Open Source Initiative (OSI), me dijo que el software y los datos que mezclan la inteligencia artificial (IA) con las licencias de código abierto existentes no encajan bien. «Por lo tanto», dijo Maffulli, «necesitamos hacer una nueva definición para la IA de código abierto». Además: Cómo el código abierto está llevando a la IA por el buen caminoLa organización matriz de Firefox, la Fundación Mozilla, está de acuerdo. Los grandes gigantes tecnológicos, explicó un representante de Mozilla, «no necesariamente se han adherido a los principios completos del código abierto con respecto a sus modelos de IA». Además, una nueva definición «ayudará a los legisladores que trabajan para desarrollar reglas y regulaciones para proteger a los consumidores de los riesgos de la IA». La OSI ha estado trabajando diligentemente en la creación de una definición integral de IA de código abierto, similar a la Definición de Código Abierto para software. Este esfuerzo crítico aborda la creciente necesidad de claridad para determinar qué constituye un sistema de IA de código abierto en un momento en que muchas empresas afirman que sus modelos de IA son de código abierto sin ser realmente abiertos en absoluto, como Llama 3,1 de Meta. El último borrador de la Definición de IA de Código Abierto de la OSI, 0.0.9, tiene varios cambios significativos. Estos son: Definiciones aclaradas: La definición ahora identifica claramente los modelos y pesos/parámetros como parte del «sistema» de IA, enfatizando que todos los componentes deben cumplir con el estándar de código abierto. Esta claridad garantiza que todo el sistema de IA, no solo las partes, se adhiera a los principios de código abierto. Función de los datos de entrenamiento: Los datos de entrenamiento son beneficiosos pero no necesarios para modificar los sistemas de IA. Esta decisión refleja las complejidades de compartir datos, incluidas las preocupaciones legales y de privacidad. El borrador clasifica los datos de entrenamiento en datos abiertos, públicos y no públicos que no se pueden compartir, cada uno con pautas específicas para mejorar la transparencia y la comprensión de los sesgos del sistema de IA. Separación de la lista de verificación: la lista de verificación de evaluación de la licencia se ha separado del documento de definición principal, en consonancia con el Marco de Apertura de Modelos (MOF). Esta separación permite una discusión centrada en la identificación de la IA de código abierto, manteniendo al mismo tiempo los principios generales de la definición. Como detalló el director ejecutivo de Linux Foundation, Jim Zemlin, en la Cumbre de Código Abierto de China, el MOF «es una forma de ayudar a evaluar si un modelo es abierto o no. Permite a las personas calificar los modelos». Dentro del MOF, agregó Zemlin, hay tres niveles de apertura. «El nivel más alto, el nivel uno, es una definición de ciencia abierta donde los datos, cada componente utilizado y todas las instrucciones deben ir y crear su propio modelo exactamente de la misma manera. El nivel dos es un subconjunto de eso donde no todo es realmente abierto, pero la mayoría sí. Luego, en el nivel tres, tiene áreas donde los datos pueden no estar disponibles, y los datos que describen los conjuntos de datos sí lo están. Y puede entender que, aunque el modelo sea abierto, no todos los datos están disponibles». Además: este modelo de IA le permite generar videos usando solo sus fotos. Estos tres niveles, un concepto que también aparece en los datos de entrenamiento, serán difíciles de aceptar para algunos puristas del código abierto. Surgirán argumentos sobre los modelos y los datos de entrenamiento a medida que continúe el debate sobre qué sistemas de IA y aprendizaje automático (ML) son realmente abiertos y cuáles no. La creación de la definición de IA de código abierto se ha realizado en colaboración con diversas partes interesadas de todo el mundo. Entre ellas se encuentran, entre muchas otras, Code for America, Wikimedia Foundation, Creative Commons, Linux Foundation, Microsoft, Google, Amazon, Meta, Hugging Face, Apache Software Foundation y la Unión Internacional de Telecomunicaciones de las Naciones Unidas. La OSI ha celebrado numerosos foros y talleres para recabar opiniones, asegurándose de que la definición sea inclusiva y representativa de diversas perspectivas. El proceso sigue en curso. Además: Sonos está fracasando y millones de dispositivos podrían seguir su ejemplo: por qué el audio de código abierto es nuestra única esperanzaLa definición seguirá perfeccionándose y puliéndose mediante presentaciones internacionales y la recopilación de comentarios y avales de diversas comunidades. Maffulli, de la OSI, sabe que no todo el mundo estará contento con este borrador de la definición. De hecho, antes de la aparición de esta versión, Tom Callaway, estratega técnico principal de código abierto de AWS, publicó en LinkedIn: «Creo firmemente (y creo mucho, mucho más en el ámbito del código abierto) que la actual definición de IA de código abierto no garantiza con precisión que los sistemas de IA conserven los derechos irrestrictos de los usuarios para ejecutarlos, copiarlos, distribuirlos, estudiarlos, modificarlos y mejorarlos». Ahora que el borrador ha visto la luz, estoy seguro de que otros darán su opinión. La OSI espera presentar una versión estable de la definición en la conferencia All Things Open en octubre de 2024. Si todo va bien, el resultado será una definición con la que la mayoría (si no todos) estará de acuerdo en que promueve la transparencia, la colaboración y la innovación en los sistemas de IA de código abierto.