Los conjuntos de datos masivos de entrenamiento de IA, o corpus, han sido llamados «la columna vertebral de los grandes modelos lingüísticos». Pero EleutherAI, la organización que creó uno de los conjuntos de datos más grandes del mundo, un corpus de texto diverso de código abierto de 825 GB llamado Pile, se convirtió en un objetivo en 2023 en medio de un creciente revuelo centrado en el impacto legal y ético de los conjuntos de datos que entrenaron. los LLM más populares, desde GPT-4 de OpenAI hasta Llama de Meta. EleutherAI, un grupo de investigación de base sin fines de lucro que comenzó como un colectivo de Discord en 2020 que buscaba comprender cómo funcionaba el nuevo GPT-3 de OpenAI, fue nombrado en una de las muchas demandas centradas en la IA generativa el año pasado. El exgobernador de Arkansas Mike Huckabee y otros autores presentaron una demanda en octubre alegando que sus libros fueron tomados sin consentimiento e incluidos en Books3, un controvertido conjunto de datos que contiene más de 180.000 obras y que se incluyó como parte del proyecto Pile (Books3, que originalmente fue subido en 2020 por Shawn Presser, fue eliminado de Internet en agosto de 2023 después de un aviso legal de un grupo antipiratería danés). Pero lejos de detener su trabajo con el conjunto de datos, EleutherAI ahora está creando una versión actualizada del conjunto de datos Pile, en colaboración. con múltiples organizaciones, incluidas la Universidad de Toronto y el Instituto Allen de IA, así como investigadores independientes. En una entrevista conjunta con VentureBeat, Stella Biderman, científica y matemática principal de Booz Allen Hamilton, que también es directora ejecutiva de EleutherAI, y Aviya Skowron, directora de políticas y ética de EleutherAI, dijeron que faltan unos meses para que se publique el conjunto de datos actualizado de Pile. finalizado. Se espera que el nuevo Pile sea más grande y «sustancialmente mejor». Biderman dijo que el nuevo conjunto de datos de capacitación LLM será incluso más grande y se espera que sea «sustancialmente mejor» que el antiguo conjunto de datos. «Habrá muchos datos nuevos», dijo Biderman. Algunos, dijo, serán datos que no se han visto antes en ningún lugar y «en los que estamos trabajando en una especie de excavación, lo cual será realmente emocionante». Pile v2 incluye datos más recientes que el conjunto de datos original, que se lanzó en diciembre de 2020 y se utilizó para crear modelos de lenguaje, incluida la suite Pythia y la suite Stable LM de Stability AI. También incluirá un mejor preprocesamiento: «Cuando creamos Pile, nunca antes habíamos entrenado a un LLM», explicó Biderman. «Ahora hemos capacitado a cerca de una docena y sabemos mucho más sobre cómo limpiar datos de manera que sean accesibles para los LLM». El conjunto de datos actualizado también incluirá datos de mejor calidad y más diversos. «Vamos a tener muchos más libros que los que tenía el Pile original, por ejemplo, y una representación más diversa de dominios de no ficción no académicos», dijo. La pila original consta de 22 subconjuntos de datos, incluidos Books3 pero también PubMed Central, Arxiv, Stack Exchange, Wikipedia, subtítulos de YouTube y, curiosamente, correos electrónicos de Enron. Biderman señaló que Pile sigue siendo el conjunto de datos de formación LLM mejor documentado por su creador en el mundo. El objetivo al desarrollar Pile era construir un nuevo y extenso conjunto de datos, que comprende miles de millones de pasajes de texto, destinado a igualar la escala de lo que OpenAI utilizó para entrenar GPT-3. The Pile era un conjunto de datos de entrenamiento de IA único cuando se lanzó. “En 2020, Pile era algo muy importante, porque no había nada parecido”, dijo Biderman. En ese momento, explicó, había un gran corpus de texto disponible públicamente, C4, que Google utilizaba para entrenar una variedad de modelos de lenguaje. «Pero C4 no es tan grande como Pile y también es mucho menos diverso», dijo. «Es un raspado de rastreo común de muy alta calidad». (El Washington Post analizó C4 en una investigación de abril de 2023 que “se propuso analizar uno de estos conjuntos de datos para revelar completamente los tipos de sitios web propietarios, personales y, a menudo, ofensivos que se incluyen en los datos de entrenamiento de una IA”). En cambio, EleutherAI buscó ser más exigente e identificar categorías de información y temas sobre los que quería que el modelo supiera cosas. «Eso no era realmente algo que nadie hubiera hecho antes», explicó. «Más del 75% de la Pila se eligió entre temas o dominios específicos, donde queríamos que el modelo supiera cosas al respecto; brindémosle tanta información significativa como podamos sobre el mundo, sobre las cosas que nos importan». Skowron explicó que la “posición general de EleutherAI es que el entrenamiento de modelos es un uso legítimo” de los datos protegidos por derechos de autor. Pero señalaron que «actualmente no existe ningún modelo de lenguaje grande en el mercado que no esté entrenado con datos protegidos por derechos de autor» y que uno de los objetivos del proyecto Pile v2 es intentar abordar algunas de las cuestiones relacionadas con los derechos de autor y las licencias de datos. . Detallaron la composición del nuevo conjunto de datos de Pile para reflejar ese esfuerzo: incluye datos de dominio público, tanto obras más antiguas que ingresaron al dominio público en los EE. UU. como textos que nunca estuvieron dentro del alcance de los derechos de autor, como documentos producidos. por el gobierno o documentos legales (como opiniones de la Corte Suprema); texto con licencia Creative Commons; código bajo licencias de código abierto; texto con licencias que permiten explícitamente la redistribución y reutilización (algunos artículos científicos de acceso abierto entran en esta categoría); y una categoría miscelánea para conjuntos de datos más pequeños para los cuales los investigadores tienen el permiso explícito de los titulares de derechos. Las críticas a los conjuntos de datos de entrenamiento de IA se volvieron comunes después de ChatGPT. La preocupación por el impacto de los conjuntos de datos de entrenamiento de IA no es nueva. Por ejemplo, en 2018, los investigadores de IA Joy Buolamwini y Timnit Gebru fueron coautores de un artículo que encontró que grandes conjuntos de datos de imágenes conducían a prejuicios raciales dentro de los sistemas de IA. Y las batallas legales comenzaron a gestarse en torno a grandes conjuntos de datos de entrenamiento de imágenes a mediados de 2022, poco después de que el público comenzara a darse cuenta de que los populares generadores de texto a imagen como Midjourney y Stable Diffusion fueron entrenados en conjuntos de datos de imágenes masivos, en su mayoría extraídos de Internet. Sin embargo, las críticas a los conjuntos de datos que entrenan a los LLM y a los generadores de imágenes han aumentado considerablemente desde que se lanzó ChatGPT de OpenAI en noviembre de 2022, particularmente en torno a preocupaciones relacionadas con los derechos de autor. Siguió una serie de demandas centradas en la IA generativa por parte de artistas, escritores y editores, que condujeron a la demanda que el New York Times presentó contra OpenAI y Microsoft el mes pasado, que muchos creen que podría terminar ante la Corte Suprema. Pero recientemente también ha habido acusaciones más serias e inquietantes, incluida la facilidad para crear porno de venganza deepfake gracias a los grandes corpus de imágenes que entrenaron modelos de texto a imagen, así como el descubrimiento de miles de imágenes de abuso sexual infantil en LAION. Conjunto de datos de imágenes de 5 mil millones, lo que llevó a su eliminación el mes pasado. El debate en torno a los datos de entrenamiento de la IA es muy complejo y lleno de matices Biderman y Skowron dicen que el debate en torno a los datos de entrenamiento de la IA es mucho más complejo y lleno de matices de lo que los medios y los críticos de la IA hacen parecer, incluso cuando se trata de cuestiones que son claramente inquietantes y incorrecto, como las imágenes de abuso sexual infantil encontradas en LAION-5B. Por ejemplo, Biderman dijo que la metodología utilizada por las personas que marcaron el contenido de LAION no es legalmente accesible para la organización LAION, lo que, según ella, dificulta la eliminación segura de las imágenes. Y es posible que los recursos para examinar con antelación conjuntos de datos para este tipo de imágenes no estén disponibles. «Parece haber una desconexión muy grande entre la forma en que las organizaciones intentan combatir este contenido y lo que haría que sus recursos fueran útiles para las personas que quisieran examinar conjuntos de datos», dijo. Cuando se trata de otras preocupaciones, como el impacto en los trabajadores creativos cuyo trabajo se utilizó para entrenar modelos de IA, «muchos de ellos están molestos y heridos», dijo Biderman. «Entiendo totalmente de dónde vienen desde esa perspectiva». Pero señaló que algunos creativos subieron trabajos a Internet bajo licencias permisivas sin saber que años más tarde, los conjuntos de datos de entrenamiento de IA podrían usar el trabajo bajo esas licencias, incluido Common Crawl. «Creo que mucha gente en la década de 2010, si tuvieran una bola ocho mágica, habrían tomado decisiones de licencia diferentes», dijo. Aún así, EleutherAI tampoco tenía una bola ocho mágica, y Biderman y Skowron están de acuerdo en que cuando se creó Pile, los conjuntos de datos de entrenamiento de IA se utilizaron principalmente para la investigación, donde existen amplias exenciones en lo que respecta a licencias y derechos de autor. “Recientemente, las tecnologías de inteligencia artificial han dado un salto desde algo que se consideraría principalmente un producto de investigación y un artefacto científico a algo cuyo propósito principal era la fabricación”, dijo Biderman. Google había puesto algunos de estos modelos en uso comercial en el back-end en el pasado, explicó, pero la capacitación en «conjuntos de datos muy grandes, en su mayoría de secuencias de comandos web, esto se convirtió en una cuestión muy recientemente». Para ser justos, dijo Skowron, juristas como Ben Sobel habían estado pensando en cuestiones de IA y la cuestión legal del “uso justo” durante años. Pero incluso muchos en OpenAI, «que uno pensaría que estarían al tanto de la cartera de productos», no se dieron cuenta del impacto público y comercial de ChatGPT que se estaba gestando, explicaron. EleutherAI dice que los conjuntos de datos abiertos son más seguros de usar Si bien puede parecer contradictorio para algunos, Biderman y Skowron también sostienen que los modelos de IA entrenados en conjuntos de datos abiertos como Pile son más seguros de usar, porque la visibilidad de los datos es lo que ayuda a que los modelos de IA resultantes sean más seguros. utilizados de forma segura y ética en una variedad de contextos. “Es necesario que haya mucha más visibilidad para lograr muchos objetivos políticos o ideales éticos que la gente quiere”, dijo Skowron, incluyendo como mínimo una documentación exhaustiva de la capacitación. «Y para muchas preguntas de investigación se necesita acceso real a los conjuntos de datos, incluidos aquellos que son de gran interés para los titulares de derechos de autor, como la memorización». Por ahora, Biderman, Skowron y sus compañeros en EleutherAI continúan su trabajo en la versión actualizada de Pile. «Ha sido un trabajo en progreso durante aproximadamente un año y medio y ha sido un trabajo en progreso significativo durante aproximadamente dos meses; soy optimista de que entrenaremos y lanzaremos modelos este año», dijo Biderman. “Tengo curiosidad por ver la gran diferencia que esto supone. Si tuviera que adivinar… sería una pequeña pero significativa”. La misión de VentureBeat es ser una plaza digital para que los tomadores de decisiones técnicas adquieran conocimientos sobre tecnología empresarial transformadora y realicen transacciones. Descubra nuestros Briefings.

Source link