“La popularidad de la IA generativa ha hecho que la demanda de contenido utilizado para entrenar modelos o ejecutar inferencias se dispare, y aunque algunas empresas de IA identifican claramente sus bots de raspado web, no todas las empresas de IA son transparentes”, escribió el personal de Cloudflare en una publicación de blog. Según los autores de la publicación, “Google supuestamente pagó $60 millones al año para licenciar el contenido generado por los usuarios de Reddit, Scarlett Johansson alegó que OpenAI usó su voz para su nuevo asistente personal sin su consentimiento y, más recientemente, Perplexity ha sido acusada de hacerse pasar por visitantes legítimos para raspar contenido de sitios web. El valor del contenido original en masa nunca ha sido mayor”. El año pasado, Cloudflare introdujo una forma para que cualquiera de sus clientes, en cualquier plan, bloqueara categorías específicas de bots, incluidos ciertos rastreadores de IA. Estos bots, dijo Cloudflare, observan las solicitudes en los archivos robots.txt de los sitios y no usan contenido sin licencia para entrenar sus modelos, ni se reúnen para alimentar aplicaciones de generación aumentada de recuperación (RAG).