conjuntos de datos - Isla informática

La mayoría de la gente supone que la IA generativa seguirá mejorando cada vez más; después de todo, esa ha sido la tendencia hasta ahora. Y puede que así sea. Pero lo que algunas personas no saben es que los modelos de IA generativa son tan buenos como los enormes conjuntos de datos con los que se entrenan, y esos conjuntos de datos no se construyen a partir de datos privados que pertenecen a empresas líderes de IA como OpenAI y Anthropic. En cambio, están compuestos de datos públicos que fueron creados por todos nosotros: cualquiera que haya escrito una publicación en un blog, publicado un video, comentado en un hilo de Reddit o básicamente hecho cualquier otra cosa en línea. Un nuevo informe de la Data Provenance Initiative, un colectivo voluntario de investigadores de IA, arroja luz sobre lo que está sucediendo con todos esos datos. El informe, «Consent in Crisis: The Rapid Decline of the AI Data Commons», señala que una cantidad significativa de organizaciones que se sienten amenazadas por la IA generativa están tomando medidas para aislar sus datos. IEEE Spectrum habló con Shayne Longpre, investigador principal de la Iniciativa de Procedencia de Datos, sobre el informe y sus implicaciones para las empresas de IA. Shayne Longpre sobre: Cómo los sitios web mantienen alejados a los rastreadores web y por qué La desaparición de datos y lo que significa para las empresas de IA Datos sintéticos, datos pico y qué sucede a continuación La tecnología que utilizan los sitios web para mantener alejados a los rastreadores web no es nueva: el protocolo de exclusión de robots se introdujo en 1995. ¿Puede explicar qué es y por qué de repente se volvió tan relevante en la era de la IA generativa? Shayne Longpre Shayne Longpre: Robots.txt es un archivo legible por máquina que los rastreadores (bots que navegan por la web y registran lo que ven) utilizan para determinar si rastrear o no ciertas partes de un sitio web. Se convirtió en el estándar de facto en la era en la que los sitios web lo usaban principalmente para dirigir la búsqueda web. Así que piense en Bing o Google Search; querían registrar esta información para poder mejorar la experiencia de navegación de los usuarios por la web. Esta era una relación muy simbiótica porque la búsqueda web funciona enviando tráfico a sitios web y los sitios web quieren eso. En términos generales, la mayoría de los sitios web funcionaron bien con la mayoría de los rastreadores. Permítanme hablar ahora sobre una cadena de afirmaciones que es importante entender. Los modelos de IA de propósito general y sus impresionantes capacidades dependen de la escala de datos y computación que se han utilizado para entrenarlos. La escala y los datos realmente importan, y hay muy pocas fuentes que brinden una escala pública como lo hace la web. Muchos de los modelos básicos se entrenaron en [data sets composed of] Los robots.txt son una parte importante de la web. Estos conjuntos de datos populares e importantes incluyen básicamente sitios web y la infraestructura de rastreo que se utiliza para recopilar, empaquetar y procesar esos datos. Nuestro estudio no solo analiza los conjuntos de datos, sino también las señales de preferencia de los sitios web subyacentes. Es la cadena de suministro de los datos en sí. Pero en el último año, muchos sitios web han comenzado a usar robots.txt para restringir los bots, especialmente los sitios web que se monetizan con publicidad y muros de pago, como las noticias y los artistas. Tienen especial miedo, y tal vez con razón, de que la IA generativa pueda afectar sus medios de vida. Por eso están tomando medidas para proteger sus datos. Cuando un sitio coloca restricciones en robots.txt, es como poner una señal de prohibición de entrada, ¿no? No es exigible. Tienes que confiar en que los rastreadores lo respeten. Longpre: La tragedia de esto es que robots.txt es legible por máquina, pero no parece ser legalmente exigible. Mientras que los términos del servicio pueden ser legalmente exigibles, pero no son legibles por máquina. En los términos del servicio, pueden articular en lenguaje natural cuáles son las preferencias para el uso de los datos. Así, pueden decir cosas como: «Puedes usar estos datos, pero no comercialmente». Pero en un robots.txt, tienes que especificar individualmente los rastreadores y luego decir qué partes del sitio web permites o no para ellos. Esto supone una carga indebida para los sitios web, que deben averiguar, entre miles de rastreadores diferentes, cuáles corresponden a los usos que les gustarían y cuáles no. ¿Sabemos si los rastreadores generalmente respetan las restricciones en robots.txt? Longpre: Muchas de las principales empresas tienen documentación que dice explícitamente cuáles son sus reglas o procedimientos. En el caso, por ejemplo, de Anthropic, dicen que respetan el robots.txt para ClaudeBot. Sin embargo, muchas de estas empresas también han estado en las noticias últimamente porque se las ha acusado de no respetar el robots.txt y rastrear sitios web de todos modos. No está claro desde fuera por qué hay una discrepancia entre lo que las empresas de IA dicen que hacen y lo que se les acusa de hacer. Pero muchos de los grupos prosociales que utilizan el rastreo (empresas emergentes más pequeñas, académicos, organizaciones sin fines de lucro, periodistas) tienden a respetar el archivo robots.txt. No son el objetivo previsto de estas restricciones, pero se ven bloqueados por ellas. volver al principioEn el informe, analizaron tres conjuntos de datos de entrenamiento que se utilizan a menudo para entrenar sistemas de IA generativa, que se crearon a partir de rastreos web en años anteriores. Descubrieron que, entre 2023 y 2024, hubo un aumento muy significativo en la cantidad de dominios rastreados que desde entonces habían sido restringidos. ¿Pueden hablarnos de esos hallazgos?Longpre: Lo que descubrimos es que si observamos un conjunto de datos en particular, tomemos C4, que es muy popular, creado en 2019, en menos de un año, aproximadamente el 5 por ciento de sus datos han sido revocados si respeta o se adhiere a las preferencias de los sitios web subyacentes. Ahora bien, un 5 por ciento no parece mucho, pero lo es cuando te das cuenta de que esta parte de los datos corresponde principalmente a los datos de mayor calidad, mejor mantenidos y más actualizados. Cuando analizamos los 2000 sitios web principales de este conjunto de datos C4 (son los 2000 principales por tamaño y son principalmente sitios de noticias, grandes sitios académicos, redes sociales y sitios web de alta calidad bien seleccionados), el 25 por ciento de los datos de esos 2000 principales ha sido revocado desde entonces. Lo que esto significa es que la distribución de datos de entrenamiento para modelos que respetan robots.txt está cambiando rápidamente de sitios web académicos, de noticias de alta calidad, foros y redes sociales a sitios web más personales y de organizaciones, así como de comercio electrónico y blogs. Eso parece que podría ser un problema si le pedimos a alguna versión futura de ChatGPT o Perplexity que responda preguntas complicadas y está tomando la información de blogs personales y sitios de compras. Longpre: Exactamente. Es difícil medir cómo afectará esto a los modelos, pero sospechamos que habrá una brecha entre el rendimiento de los modelos que respetan robots.txt y el rendimiento de los modelos que ya han asegurado estos datos y están dispuestos a entrenarse con ellos de todos modos. Pero los conjuntos de datos más antiguos siguen intactos. ¿Pueden las empresas de IA simplemente usar los conjuntos de datos más antiguos? ¿Cuál es la desventaja de eso? Longpre: Bueno, la actualización continua de los datos realmente importa. Tampoco está claro si robots.txt se puede aplicar de forma retroactiva. Los editores probablemente argumentarían que sí. Por lo tanto, depende de su apetito por las demandas o hacia dónde cree que podrían ir las tendencias, especialmente en los EE. UU., con las demandas en curso en torno al uso justo de los datos. El principal ejemplo es obviamente The New York Times contra OpenAI y Microsoft, pero ahora hay muchas variantes. Hay mucha incertidumbre en cuanto a qué camino tomará. El informe se llama «Consent in Crisis». ¿Por qué lo considera una crisis? Longpre: Creo que es una crisis para los creadores de datos, debido a la dificultad de expresar lo que quieren con los protocolos existentes. Y también para algunos desarrolladores que no son comerciales y tal vez ni siquiera están relacionados con la IA, los académicos e investigadores están descubriendo que estos datos son cada vez más difíciles de acceder. Y creo que también es una crisis porque es un desastre. La infraestructura no fue diseñada para dar cabida a todos estos diferentes casos de uso a la vez. Y finalmente se está convirtiendo en un problema debido a la colisión de estas enormes industrias, con la IA generativa contra los creadores de noticias y otros. ¿Qué pueden hacer las empresas de IA si esto continúa y cada vez se restringen más datos? ¿Cuáles serían sus movimientos para seguir entrenando modelos enormes? Longpre: Las grandes empresas lo licenciarán directamente. Puede que no sea un mal resultado para algunas de las grandes empresas si muchos de estos datos se excluyen o son difíciles de recopilar, solo crea un mayor requisito de capital para ingresar. Creo que las grandes empresas invertirán más en el proceso de recopilación de datos y en obtener acceso continuo a fuentes de datos valiosas generadas por los usuarios, como YouTube, GitHub y Reddit. Adquirir acceso exclusivo a esos sitios es probablemente una jugada de mercado inteligente, pero problemática desde una perspectiva antimonopolio. Estoy particularmente preocupado por las relaciones exclusivas de adquisición de datos que podrían surgir de esto. volver al inicio¿Cree que los datos sintéticos pueden llenar el vacío? Longpre: Las grandes empresas ya están utilizando datos sintéticos en grandes cantidades. Existen tanto temores como oportunidades con los datos sintéticos. Por un lado, ha habido una serie de trabajos que han demostrado el potencial de colapso del modelo, que es la degradación de un modelo debido al entrenamiento en datos sintéticos deficientes que puede aparecer con mayor frecuencia en la web a medida que se liberan más y más bots generativos. Sin embargo, creo que es poco probable que los modelos grandes se vean obstaculizados mucho porque tienen filtros de calidad, por lo que la mala calidad o el material repetitivo se pueden desviar. Y las oportunidades de los datos sintéticos son cuando se crean en un entorno de laboratorio para que sean de muy alta calidad y se dirijan particularmente a dominios que están subdesarrollados. ¿Le da crédito a la idea de que podemos estar en el pico de datos? ¿O cree que es una preocupación exagerada? Longpre: Hay una gran cantidad de datos sin explotar por ahí. Pero lo más interesante es que gran parte de esto está oculto detrás de archivos PDF, por lo que es necesario realizar OCR. [optical character recognition]. Muchos datos están bloqueados en los gobiernos, en canales privados, en formatos no estructurados o en formatos difíciles de extraer como los PDF. Creo que habrá mucha más inversión en averiguar cómo extraer esos datos. Creo que en términos de datos fácilmente disponibles, muchas empresas están empezando a toparse con muros y a recurrir a datos sintéticos. ¿Cuál es la tendencia en este caso? ¿Espera que más sitios web impongan restricciones a robots.txt en los próximos años? Longpre: Esperamos que las restricciones aumenten, tanto en robots.txt como en términos de servicio. Esas tendencias son muy claras en nuestro trabajo, pero podrían verse afectadas por factores externos como la legislación, los cambios de políticas de las propias empresas, el resultado de demandas judiciales, así como la presión de la comunidad por parte de los gremios de escritores y cosas así. Y espero que la creciente mercantilización de los datos provoque un mayor conflicto en este espacio. ¿Qué le gustaría que sucediera en términos de estandarización dentro de la industria para facilitar que los sitios web expresen sus preferencias sobre el rastreo? Longpre: En la Iniciativa Data Province, definitivamente esperamos que surjan y se adopten nuevos estándares para permitir que los creadores expresen sus preferencias de una manera más granular en relación con los usos de sus datos. Eso haría que la carga sea mucho más fácil para ellos. Creo que es una obviedad y una situación en la que todos ganan. Pero no está claro quién es el trabajo de crear o hacer cumplir estos estándares. Sería increíble si la iniciativa Data Province [AI] Las propias empresas podrían llegar a esta conclusión y hacerlo, pero el diseñador del estándar casi inevitablemente tendrá algún sesgo hacia su propio uso, especialmente si se trata de una entidad corporativa. También es cierto que las preferencias no deben respetarse en todos los casos. Por ejemplo, no creo que a los académicos o periodistas que realizan investigaciones prosociales se les deba prohibir necesariamente el acceso a datos con máquinas que ya son públicas, en sitios web que cualquiera podría visitar por sí mismo. No todos los datos son creados de la misma manera y no todos los usos son creados de la misma manera. volver arribaArtículos de su sitioArtículos relacionados en la Web

Todo lo que necesitas saber sobre tecnología

Etiqueta: conjuntos de datos

Con Robots.txt, los sitios web detienen los rastreadores web de las empresas de inteligencia artificial