En los últimos años, el uso de la inteligencia artificial (IA) se ha vuelto cada vez más frecuente en diversas industrias, incluida la literatura. Sin embargo, un descubrimiento reciente ha generado preocupación entre los autores: sus libros se han utilizado para entrenar IA sin su consentimiento. La tecnología de modelos de lenguaje grande (LLM) ha logrado grandes avances en los últimos años, pero detrás se esconde la nube de disputas por derechos de autor. Los gigantes tecnológicos utilizan cantidades masivas de datos de texto para formar LLM. Esto inevitablemente involucra obras protegidas por derechos de autor, lo que genera fuertes protestas por parte de autores y organizaciones de medios. Recientemente, Meta enfrentó una demanda colectiva de varios autores, entre ellos la comediante Sarah Silverman y el autor Richard Kadrey. La demanda colectiva acusa a Meta de utilizar el conjunto de datos «Books3» que contiene una gran cantidad de libros pirateados para entrenar sus modelos LLAM 1 y LLAM 2. Meta admitió haber utilizado el conjunto de datos de Books3. Sin embargo, se negó a pagar una indemnización adecuada a los autores. ¿Qué es Books3? Books3 es un conjunto de datos de texto que contiene 195.000 libros con una capacidad total de casi 37 GB. Fue creado por el investigador de inteligencia artificial Shawn Presser en 2020 para proporcionar una mejor fuente de datos para mejorar los algoritmos de aprendizaje automático. Sin embargo, el conjunto de datos de Books3 es una colección de libros electrónicos pirateados, la mayoría de los cuales se publicaron en los últimos 20 años. Era parte de un proyecto más amplio llamado The Pile, cuyo objetivo era proporcionar datos de código abierto para modelos lingüísticos. El conjunto de datos se hizo accesible al público y fue utilizado por varias empresas. Varios autores han informado que sus libros se incluyeron en el conjunto de datos de Books3 sin su permiso. Algunos de los autores notables que se han pronunciado sobre este tema incluyen a Conor Kostick, Bart King, Lauren Groff, Bianca Turetsky y T. Greenwood. Estos autores han expresado su desaprobación de que su trabajo se utilice para el entrenamiento de IA, y algunos incluso han amenazado con emprender acciones legales contra los responsables. El uso no autorizado del conjunto de datos de Books3 ha dado lugar a varias demandas, y los autores buscan compensación y protección por su trabajo. El Authors Guild busca activamente protección y compensación para todos los autores afectados. La demanda menciona que empresas como OpenAI y Books se han beneficiado del uso de libros pirateados sin ofrecer compensación a los autores. Meta ha admitido desde entonces que los utiliza para entrenar su propio modelo LLAM. Por eso la empresa se encuentra ahora ante los tribunales. Los autores piden una compensación por el uso de su trabajo para la formación en IA. Books3 contiene una gran cantidad de obras protegidas por derechos de autor rastreadas desde el sitio web pirateado Bibliotik. Esto pone en riesgo legal las acciones de Meta. Gizchina Noticias de la semana La respuesta de Meta Aunque Meta admitió haber usado Books3, niega cualquier infracción intencional de los derechos de autor de los libros. La empresa afirma que su uso del conjunto de datos de Books3 entra dentro del alcance del uso legítimo. Meta también dijo que el uso de estos libros no requiere permiso, atribución ni compensación. Además, Meta cuestiona la legalidad de la demanda como una demanda colectiva y se niega a proporcionar cualquier forma de “compensación” financiera a los escritores que presentaron la demanda u otras personas involucradas en la controversia de Books3. Vale la pena señalar que parte del contenido del conjunto de datos de Books3 proviene del sitio web de piratería Bibliotik. La organización danesa antipiratería Rights Alliance solicitó el año pasado que el conjunto de datos fuera retirado de los estantes y actualmente se enfrenta a una prohibición de archivo digital. El caso de Meta no es único Es importante señalar en este punto que el enfoque de Meta no es único. Es algo que hacen otras marcas. Anteriormente, el New York Times también presentó una demanda contra OpenAI y Microsoft por utilizar sus artículos para entrenar al chatbot ChatGPT. OpenAI argumentó que entrenar un modelo de IA sin utilizar material protegido por derechos de autor es «casi imposible». Finalmente, la empresa pidió al tribunal que desestimara la demanda. Recordemos que en noviembre de hace dos años, la IA generativa nos llegó repentinamente con la llegada de ChatGPT. En ese momento, casi no existía ninguna ley que regulara el uso de la IA generativa. Mucha gente no sabe cómo obtuvo la IA sus datos. Tampoco saben cómo los modelos de IA pudieron obtener resultados bastante decentes. Sin embargo, con el paso del tiempo, el público llegó a comprender los modelos de formación que se requerían. Desde entonces, ha habido múltiples demandas contra diferentes marcas de IA por el uso de datos. El impacto en los modelos de IA El uso de libros pirateados en el entrenamiento de IA ha generado preocupaciones sobre la calidad y confiabilidad de los modelos de IA generados a partir de estos datos. Un comentarista de Hacker News sugirió que los propios autores de los libros no tendrían derecho a tomar una decisión general sobre permitir que los datos se entrenen en modelos, ya que no tienen idea de cómo permitir que los datos avance la tecnología de IA. En respuesta a la controversia que rodea al conjunto de datos Books3, un grupo antipiratería cerró el conjunto de datos. Esta decisión resalta la importancia de respetar los derechos de los autores y garantizar que los datos utilizados para entrenar modelos de IA se obtengan legalmente. Conclusión Los datos necesarios para entrenar modelos LLAM son tan enormes que es casi imposible obtener el consentimiento de todos los autores. Meta no negó haber utilizado Books3 para entrenar su modelo LLAM. Sin embargo, niega cualquier infracción intencionada de los derechos de autor de los libros. Meta también afirma que su uso del conjunto de datos de Books3 entra dentro del alcance del uso legítimo. El uso no autorizado del conjunto de datos de Books3 para el entrenamiento de IA ha generado importantes preocupaciones entre los autores. Esto ha dado lugar a varias acciones legales. El cierre del conjunto de datos Books3 sirve como recordatorio de la importancia de respetar los derechos de los autores. También garantiza que los modelos de IA se basen en datos obtenidos legalmente. A medida que avanza la tecnología de la IA, es fundamental mantener un equilibrio entre la innovación y el respeto de los derechos de propiedad intelectual. El autor de Bio Efe Udin es un escritor de tecnología experimentado con más de siete años de experiencia. Cubre una amplia gama de temas en la industria tecnológica, desde la política industrial hasta el rendimiento de los teléfonos móviles. Desde móviles hasta tablets, Efe también ha estado atenta a los últimos avances y tendencias. Proporciona análisis y reseñas perspicaces para informar y educar a los lectores. Efe es un apasionado de la tecnología y cubre historias interesantes, además de ofrecer soluciones cuando es posible. Descargo de responsabilidad: Es posible que algunas de las empresas de cuyos productos hablamos nos compensen, pero nuestros artículos y reseñas son siempre nuestras opiniones honestas. Para obtener más detalles, puede consultar nuestras pautas editoriales y conocer cómo utilizamos los enlaces de afiliados.