Las cosas clave de Andriy Onufriyenko/Getty Imageszdnet El archivo de Internet ahora solo puede rastrear la página de inicio de Reddit. La plataforma, conocida como un recurso donde los usuarios pueden publicar de forma anónima y encontrar información sobre prácticamente cualquier tema, bloqueará la máquina Wayback de Internet Archive para indexar sus datos en línea, según un informe del lunes desde el borde. El movimiento es en respuesta al descubrimiento de que las empresas de IA, que no pueden raspar datos de Reddit directamente debido a las políticas prohibitivas de la plataforma, han estado recuperando sus datos del contenido indexado en el Archivo de Internet y utilizando a los modelos de entrenar. La máquina de Wayback ahora solo podrá raspar los datos de Reddit, la casa de inicio de Reddit, según el Vérmico, mientras el acceso a los perfiles de los usuarios, los comentarios y las páginas de detalle, y las páginas de detalle podrán ser capaces. El archivo de Internet es una organización sin fines de lucro que opera una enorme base de datos digitales de contenido web. El archivo se mantiene en parte por Wayback Machine, una pieza de software que se reúne en las páginas web y las conserva cuando aparecieron cuando se recopilaron, como las moscas digitales en el ámbar. Esto sirve como un recurso para los investigadores que estudian la evolución de la cultura en línea y la evidencia forense digital para la aplicación de la ley, entre otros usos. Lo que el movimiento de Reddit significa que eldit ha marcado previamente las preocupaciones relacionadas con el raspado de su contenido con el archivo de Internet, según el verge. Según los informes, la organización sin fines de lucro también se notificó antes de que las restricciones de rastreo web comenzaran a entrar en vigencia ayer. El archivo de Internet aún no ha hecho una declaración oficial sobre cómo planea responder a las nuevas restricciones de Reddit, y al momento de escribir, no ha respondido a la solicitud de comentarios de ZDNET. Sin embargo, el director de Wayback Machine, Mark Graham, ha dicho a múltiples publicaciones que el archivo de Internet «continuará teniendo discusiones continuas sobre este asunto» con Reddit. Recogiendo la decisión reportada de Tenseddit de bloquear la máquina de Wayback de rasparse la mayoría de su contenido que llega durante un momento de tensión de montaje entre las compañías de IA y los editores digitales, aunque Reddit es la primera compañía técnica para ir al debate. La compañía demandó a Anthrope en junio después de descubrir que la compañía de IA estaba raspando ilegalmente sus datos, pero también ha firmado anteriormente acuerdos de licencia con Google y OpenAI. Entrene los modelos de IA generativos, que están diseñados para identificar y replicar patrones matemáticos sutiles obtenidos de esos conjuntos de datos de capacitación. Muchas de esas compañías han raspado datos de capacitación de sitios web disponibles públicamente, incluidos los sitios de redes sociales y los medios de comunicación, reclamando inmunidad legal bajo un concepto conocido en la ley de derechos de autor como uso justo. (Los tribunales todavía están desenredando la legitimidad de ese argumento, y probablemente lo harán durante algún tiempo). Muchas de las organizaciones cuyo contenido ha sido raspado copiosamente, junto con una cohorte de autores y otros artistas, han respondido con demandas. Mientras tanto, otros han firmado acuerdos de licencia de contenido con los gustos de OpenAi, Anthrope y Google, que consienten el uso de los datos de sus organizaciones a cambio de una mayor visibilidad en las respuestas generadas por los chatbots u otros beneficios.
Deja una respuesta