Todo lo que necesitas saber sobre tecnología

Etiqueta: modelos de fundacion

Con Robots.txt, los sitios web detienen los rastreadores web de las empresas de inteligencia artificial

Con Robots.txt, los sitios web detienen los rastreadores web de las empresas de inteligencia artificial

La mayoría de la gente supone que la IA generativa seguirá mejorando cada vez más; después de todo, esa ha sido la tendencia hasta ahora. Y puede que así sea. Pero lo que algunas personas no saben es que los modelos de IA generativa son tan buenos como los enormes conjuntos de datos con los que se entrenan, y esos conjuntos de datos no se construyen a partir de datos privados que pertenecen a empresas líderes de IA como OpenAI y Anthropic. En cambio, están compuestos de datos públicos que fueron creados por todos nosotros: cualquiera que haya escrito una publicación en un blog, publicado un video, comentado en un hilo de Reddit o básicamente hecho cualquier otra cosa en línea. Un nuevo informe de la Data Provenance Initiative, un colectivo voluntario de investigadores de IA, arroja luz sobre lo que está sucediendo con todos esos datos. El informe, «Consent in Crisis: The Rapid Decline of the AI ​​Data Commons», señala que una cantidad significativa de organizaciones que se sienten amenazadas por la IA generativa están tomando medidas para aislar sus datos. IEEE Spectrum habló con Shayne Longpre, investigador principal de la Iniciativa de Procedencia de Datos, sobre el informe y sus implicaciones para las empresas de IA. Shayne Longpre sobre: ​​Cómo los sitios web mantienen alejados a los rastreadores web y por qué La desaparición de datos y lo que significa para las empresas de IA Datos sintéticos, datos pico y qué sucede a continuación La tecnología que utilizan los sitios web para mantener alejados a los rastreadores web no es nueva: el protocolo de exclusión de robots se introdujo en 1995. ¿Puede explicar qué es y por qué de repente se volvió tan relevante en la era de la IA generativa? Shayne Longpre Shayne Longpre: Robots.txt es un archivo legible por máquina que los rastreadores (bots que navegan por la web y registran lo que ven) utilizan para determinar si rastrear o no ciertas partes de un sitio web. Se convirtió en el estándar de facto en la era en la que los sitios web lo usaban principalmente para dirigir la búsqueda web. Así que piense en Bing o Google Search; querían registrar esta información para poder mejorar la experiencia de navegación de los usuarios por la web. Esta era una relación muy simbiótica porque la búsqueda web funciona enviando tráfico a sitios web y los sitios web quieren eso. En términos generales, la mayoría de los sitios web funcionaron bien con la mayoría de los rastreadores. Permítanme hablar ahora sobre una cadena de afirmaciones que es importante entender. Los modelos de IA de propósito general y sus impresionantes capacidades dependen de la escala de datos y computación que se han utilizado para entrenarlos. La escala y los datos realmente importan, y hay muy pocas fuentes que brinden una escala pública como lo hace la web. Muchos de los modelos básicos se entrenaron en [data sets composed of] Los robots.txt son una parte importante de la web. Estos conjuntos de datos populares e importantes incluyen básicamente sitios web y la infraestructura de rastreo que se utiliza para recopilar, empaquetar y procesar esos datos. Nuestro estudio no solo analiza los conjuntos de datos, sino también las señales de preferencia de los sitios web subyacentes. Es la cadena de suministro de los datos en sí. Pero en el último año, muchos sitios web han comenzado a usar robots.txt para restringir los bots, especialmente los sitios web que se monetizan con publicidad y muros de pago, como las noticias y los artistas. Tienen especial miedo, y tal vez con razón, de que la IA generativa pueda afectar sus medios de vida. Por eso están tomando medidas para proteger sus datos. Cuando un sitio coloca restricciones en robots.txt, es como poner una señal de prohibición de entrada, ¿no? No es exigible. Tienes que confiar en que los rastreadores lo respeten. Longpre: La tragedia de esto es que robots.txt es legible por máquina, pero no parece ser legalmente exigible. Mientras que los términos del servicio pueden ser legalmente exigibles, pero no son legibles por máquina. En los términos del servicio, pueden articular en lenguaje natural cuáles son las preferencias para el uso de los datos. Así, pueden decir cosas como: «Puedes usar estos datos, pero no comercialmente». Pero en un robots.txt, tienes que especificar individualmente los rastreadores y luego decir qué partes del sitio web permites o no para ellos. Esto supone una carga indebida para los sitios web, que deben averiguar, entre miles de rastreadores diferentes, cuáles corresponden a los usos que les gustarían y cuáles no. ¿Sabemos si los rastreadores generalmente respetan las restricciones en robots.txt? Longpre: Muchas de las principales empresas tienen documentación que dice explícitamente cuáles son sus reglas o procedimientos. En el caso, por ejemplo, de Anthropic, dicen que respetan el robots.txt para ClaudeBot. Sin embargo, muchas de estas empresas también han estado en las noticias últimamente porque se las ha acusado de no respetar el robots.txt y rastrear sitios web de todos modos. No está claro desde fuera por qué hay una discrepancia entre lo que las empresas de IA dicen que hacen y lo que se les acusa de hacer. Pero muchos de los grupos prosociales que utilizan el rastreo (empresas emergentes más pequeñas, académicos, organizaciones sin fines de lucro, periodistas) tienden a respetar el archivo robots.txt. No son el objetivo previsto de estas restricciones, pero se ven bloqueados por ellas. volver al principioEn el informe, analizaron tres conjuntos de datos de entrenamiento que se utilizan a menudo para entrenar sistemas de IA generativa, que se crearon a partir de rastreos web en años anteriores. Descubrieron que, entre 2023 y 2024, hubo un aumento muy significativo en la cantidad de dominios rastreados que desde entonces habían sido restringidos. ¿Pueden hablarnos de esos hallazgos?Longpre: Lo que descubrimos es que si observamos un conjunto de datos en particular, tomemos C4, que es muy popular, creado en 2019, en menos de un año, aproximadamente el 5 por ciento de sus datos han sido revocados si respeta o se adhiere a las preferencias de los sitios web subyacentes. Ahora bien, un 5 por ciento no parece mucho, pero lo es cuando te das cuenta de que esta parte de los datos corresponde principalmente a los datos de mayor calidad, mejor mantenidos y más actualizados. Cuando analizamos los 2000 sitios web principales de este conjunto de datos C4 (son los 2000 principales por tamaño y son principalmente sitios de noticias, grandes sitios académicos, redes sociales y sitios web de alta calidad bien seleccionados), el 25 por ciento de los datos de esos 2000 principales ha sido revocado desde entonces. Lo que esto significa es que la distribución de datos de entrenamiento para modelos que respetan robots.txt está cambiando rápidamente de sitios web académicos, de noticias de alta calidad, foros y redes sociales a sitios web más personales y de organizaciones, así como de comercio electrónico y blogs. Eso parece que podría ser un problema si le pedimos a alguna versión futura de ChatGPT o Perplexity que responda preguntas complicadas y está tomando la información de blogs personales y sitios de compras. Longpre: Exactamente. Es difícil medir cómo afectará esto a los modelos, pero sospechamos que habrá una brecha entre el rendimiento de los modelos que respetan robots.txt y el rendimiento de los modelos que ya han asegurado estos datos y están dispuestos a entrenarse con ellos de todos modos. Pero los conjuntos de datos más antiguos siguen intactos. ¿Pueden las empresas de IA simplemente usar los conjuntos de datos más antiguos? ¿Cuál es la desventaja de eso? Longpre: Bueno, la actualización continua de los datos realmente importa. Tampoco está claro si robots.txt se puede aplicar de forma retroactiva. Los editores probablemente argumentarían que sí. Por lo tanto, depende de su apetito por las demandas o hacia dónde cree que podrían ir las tendencias, especialmente en los EE. UU., con las demandas en curso en torno al uso justo de los datos. El principal ejemplo es obviamente The New York Times contra OpenAI y Microsoft, pero ahora hay muchas variantes. Hay mucha incertidumbre en cuanto a qué camino tomará. El informe se llama «Consent in Crisis». ¿Por qué lo considera una crisis? Longpre: Creo que es una crisis para los creadores de datos, debido a la dificultad de expresar lo que quieren con los protocolos existentes. Y también para algunos desarrolladores que no son comerciales y tal vez ni siquiera están relacionados con la IA, los académicos e investigadores están descubriendo que estos datos son cada vez más difíciles de acceder. Y creo que también es una crisis porque es un desastre. La infraestructura no fue diseñada para dar cabida a todos estos diferentes casos de uso a la vez. Y finalmente se está convirtiendo en un problema debido a la colisión de estas enormes industrias, con la IA generativa contra los creadores de noticias y otros. ¿Qué pueden hacer las empresas de IA si esto continúa y cada vez se restringen más datos? ¿Cuáles serían sus movimientos para seguir entrenando modelos enormes? Longpre: Las grandes empresas lo licenciarán directamente. Puede que no sea un mal resultado para algunas de las grandes empresas si muchos de estos datos se excluyen o son difíciles de recopilar, solo crea un mayor requisito de capital para ingresar. Creo que las grandes empresas invertirán más en el proceso de recopilación de datos y en obtener acceso continuo a fuentes de datos valiosas generadas por los usuarios, como YouTube, GitHub y Reddit. Adquirir acceso exclusivo a esos sitios es probablemente una jugada de mercado inteligente, pero problemática desde una perspectiva antimonopolio. Estoy particularmente preocupado por las relaciones exclusivas de adquisición de datos que podrían surgir de esto. volver al inicio¿Cree que los datos sintéticos pueden llenar el vacío? Longpre: Las grandes empresas ya están utilizando datos sintéticos en grandes cantidades. Existen tanto temores como oportunidades con los datos sintéticos. Por un lado, ha habido una serie de trabajos que han demostrado el potencial de colapso del modelo, que es la degradación de un modelo debido al entrenamiento en datos sintéticos deficientes que puede aparecer con mayor frecuencia en la web a medida que se liberan más y más bots generativos. Sin embargo, creo que es poco probable que los modelos grandes se vean obstaculizados mucho porque tienen filtros de calidad, por lo que la mala calidad o el material repetitivo se pueden desviar. Y las oportunidades de los datos sintéticos son cuando se crean en un entorno de laboratorio para que sean de muy alta calidad y se dirijan particularmente a dominios que están subdesarrollados. ¿Le da crédito a la idea de que podemos estar en el pico de datos? ¿O cree que es una preocupación exagerada? Longpre: Hay una gran cantidad de datos sin explotar por ahí. Pero lo más interesante es que gran parte de esto está oculto detrás de archivos PDF, por lo que es necesario realizar OCR. [optical character recognition]. Muchos datos están bloqueados en los gobiernos, en canales privados, en formatos no estructurados o en formatos difíciles de extraer como los PDF. Creo que habrá mucha más inversión en averiguar cómo extraer esos datos. Creo que en términos de datos fácilmente disponibles, muchas empresas están empezando a toparse con muros y a recurrir a datos sintéticos. ¿Cuál es la tendencia en este caso? ¿Espera que más sitios web impongan restricciones a robots.txt en los próximos años? Longpre: Esperamos que las restricciones aumenten, tanto en robots.txt como en términos de servicio. Esas tendencias son muy claras en nuestro trabajo, pero podrían verse afectadas por factores externos como la legislación, los cambios de políticas de las propias empresas, el resultado de demandas judiciales, así como la presión de la comunidad por parte de los gremios de escritores y cosas así. Y espero que la creciente mercantilización de los datos provoque un mayor conflicto en este espacio. ¿Qué le gustaría que sucediera en términos de estandarización dentro de la industria para facilitar que los sitios web expresen sus preferencias sobre el rastreo? Longpre: En la Iniciativa Data Province, definitivamente esperamos que surjan y se adopten nuevos estándares para permitir que los creadores expresen sus preferencias de una manera más granular en relación con los usos de sus datos. Eso haría que la carga sea mucho más fácil para ellos. Creo que es una obviedad y una situación en la que todos ganan. Pero no está claro quién es el trabajo de crear o hacer cumplir estos estándares. Sería increíble si la iniciativa Data Province [AI] Las propias empresas podrían llegar a esta conclusión y hacerlo, pero el diseñador del estándar casi inevitablemente tendrá algún sesgo hacia su propio uso, especialmente si se trata de una entidad corporativa. También es cierto que las preferencias no deben respetarse en todos los casos. Por ejemplo, no creo que a los académicos o periodistas que realizan investigaciones prosociales se les deba prohibir necesariamente el acceso a datos con máquinas que ya son públicas, en sitios web que cualquiera podría visitar por sí mismo. No todos los datos son creados de la misma manera y no todos los usos son creados de la misma manera. volver arribaArtículos de su sitioArtículos relacionados en la Web

Las principales tiendas de IA no pasan la prueba de transparencia


En julio y septiembre, 15 de las mayores empresas de IA firmaron los compromisos voluntarios de la Casa Blanca para gestionar los riesgos que plantea la IA. Entre esos compromisos estaba la promesa de ser más transparentes: compartir información “en toda la industria y con los gobiernos, la sociedad civil y el mundo académico” e informar públicamente sobre las capacidades y limitaciones de sus sistemas de IA. Todo lo cual suena muy bien en teoría, pero ¿qué significa en la práctica? ¿Qué es exactamente la transparencia cuando se trata de los modelos masivos y poderosos de estas empresas de IA? Gracias a un informe encabezado por el Centro de Investigación sobre Modelos de Cimientos (CRFM) de Stanford, ahora tenemos respuestas a esas preguntas. Los modelos básicos que les interesan son creaciones de propósito general como GPT-4 de OpenAI y PaLM 2 de Google, que se entrenan con una enorme cantidad de datos y pueden adaptarse para muchas aplicaciones diferentes. El Índice de Transparencia de Modelos de la Fundación calificó 10 de los modelos más importantes en 100 métricas diferentes de transparencia. La puntuación total más alta es para Meta’s Llama 2, con 54 sobre 100. No les fue tan bien. La puntuación total más alta es para Meta’s Llama 2, con 54 sobre 100. En la escuela, eso se consideraría una calificación reprobatoria. «Ningún desarrollador importante de modelos básicos está cerca de proporcionar una transparencia adecuada», escribieron los investigadores en una publicación de blog, «lo que revela una falta fundamental de transparencia en la industria de la IA». Rishi Bommasani, candidato a doctorado en el CRFM de Stanford y uno de los líderes del proyecto , afirma que el índice es un esfuerzo por combatir una tendencia preocupante de los últimos años. «A medida que aumenta el impacto, la transparencia de estos modelos y empresas disminuye», afirma. En particular, cuando OpenAI actualizó de GPT-3 a GPT-4, la compañía escribió que había tomado la decisión de retener toda la información sobre «arquitectura (incluido el tamaño del modelo), hardware, computación de entrenamiento, construcción de conjuntos de datos, [and] método de entrenamiento”. Las 100 métricas de transparencia (enumeradas en su totalidad en la publicación del blog) incluyen factores ascendentes relacionados con el entrenamiento, información sobre las propiedades y la función del modelo, y factores descendentes relacionados con la distribución y el uso del modelo. «No es suficiente, como han pedido muchos gobiernos, que una organización sea transparente cuando publica el modelo», dice Kevin Klyman, asistente de investigación en el CRFM de Stanford y coautor del informe. «También tiene que ser transparente sobre los recursos que se destinan a ese modelo, las evaluaciones de las capacidades de ese modelo y lo que sucede después del lanzamiento». Para calificar los modelos según los 100 indicadores, los investigadores buscaron en los datos disponibles públicamente. , dando a los modelos un 1 o 0 en cada indicador según umbrales predeterminados. Luego hicieron un seguimiento con las 10 empresas para ver si querían impugnar alguna de las puntuaciones. “En algunos casos, se nos pasó por alto alguna información”, dice Bommasani. Spectrum se puso en contacto con representantes de una variedad de empresas que aparecen en este índice; Ninguno de ellos había respondido a las solicitudes de comentarios al cierre de nuestra fecha límite. “El trabajo en IA es un tema habitualmente opaco. Y aquí es muy opaco, incluso más allá de las normas que hemos visto en otras áreas”.—Rishi Bommasani, Stanford La procedencia de los datos de entrenamiento para los modelos básicos se ha convertido en un tema candente, con varias demandas que alegan que las empresas de IA incluyeron ilegalmente material protegido por derechos de autor de los autores. en sus conjuntos de datos de entrenamiento. Y tal vez no sea sorprendente que el índice de transparencia mostrara que la mayoría de las empresas no han sido comunicativas con respecto a sus datos. El modelo Bloomz del desarrollador Hugging Face obtuvo la puntuación más alta en esta categoría, con un 60 por ciento; Ninguno de los otros modelos obtuvo una puntuación superior al 40 por ciento y varios obtuvieron un cero. Un mapa de calor muestra cómo les fue a los 10 modelos en categorías que van desde datos hasta impacto. Centro Stanford para la Investigación sobre Modelos de Fundación Las empresas también guardaron silencio sobre el tema del trabajo, lo cual es relevante porque los modelos requieren trabajadores humanos para perfeccionar sus modelos. Por ejemplo, OpenAI utiliza un proceso llamado aprendizaje reforzado con retroalimentación humana para enseñar a modelos como GPT-4 qué respuestas son más apropiadas y aceptables para los humanos. Pero la mayoría de los desarrolladores no hacen pública la información sobre quiénes son esos trabajadores humanos y qué salarios les pagan, y existe la preocupación de que esta mano de obra se esté subcontratando a trabajadores con salarios bajos en lugares como Kenia. «El trabajo en IA es un tema habitualmente opaco», dice Bommasani, «y aquí es muy opaco, incluso más allá de las normas que hemos visto en otras áreas». Hugging Face es uno de los tres desarrolladores del índice que los investigadores de Stanford consideraron » open”, lo que significa que los pesos de los modelos se pueden descargar ampliamente. Los tres modelos abiertos (Llama 2 de Meta, Hugging Face’s Bloomz y Stable Diffusion de Stability AI) lideran actualmente el camino en transparencia, con una puntuación mayor o igual que el mejor modelo cerrado. Si bien esos modelos abiertos obtuvieron puntos de transparencia, no todos creen que sean los actores más responsables en el campo. Actualmente existe una gran controversia sobre si modelos tan poderosos deberían ser de código abierto y, por lo tanto, potencialmente disponibles para los malos actores; Hace apenas unas semanas, los manifestantes llegaron a la oficina de Meta en San Francisco para denunciar la “proliferación irreversible” de tecnología potencialmente insegura. Bommasani y Klyman dicen que el grupo de Stanford está comprometido a mantenerse al día con el índice y planean actualizarlo al menos una vez al año. El equipo espera que los responsables políticos de todo el mundo recurran al índice a la hora de elaborar legislación sobre la IA, ya que en muchos países se están realizando esfuerzos regulatorios. Si las empresas obtienen mejores resultados en materia de transparencia en las 100 áreas diferentes destacadas por el índice, dicen, los legisladores tendrán una mejor idea de qué áreas requieren intervención. «Si hay una opacidad generalizada en los impactos laborales y posteriores», dice Bommasani, «esto les da a los legisladores cierta claridad de que tal vez deberían considerar estas cosas». Es importante recordar que incluso si un modelo hubiera obtenido una puntuación alta de transparencia en el índice actual, Eso no significaría necesariamente que fuera un modelo de virtud de la IA. Si una empresa revelara que un modelo fue entrenado con material protegido por derechos de autor y refinado por trabajadores a los que se les paga menos del salario mínimo, aún ganaría puntos por la transparencia sobre los datos y la mano de obra. «Estamos tratando de sacar a la luz los hechos» como primer paso, dice Bommasani. «Una vez que haya transparencia, habrá mucho más trabajo por hacer».

Source link

Funciona con WordPress & Tema de Anders Norén