Cloudflare ha anunciado una nueva herramienta para ayudar a los usuarios de Internet a bloquear los web scrapers y crawlers de IA, ya que las empresas inundan la red con bots para recopilar contenido para entrenar sus modelos. La función, descrita como un «botón fácil», permitirá a los usuarios bloquear bots de IA y rastreadores web con un solo clic, y está disponible para todos los clientes de Cloudflare, incluidos los de su nivel gratuito. En una publicación de blog que lanza la función, Cloudflare dijo que la popularidad de la IA generativa ha causado un fuerte aumento en la demanda de contenido para entrenar modelos, y quiere «ayudar a preservar una Internet segura para los creadores de contenido». El año pasado, Cloudflare anunció que los usuarios tendrían la capacidad de administrar rastreadores de IA que «se comportan bien» con nuevas categorías de bots. Estos son bots que siguen el archivo robots.txt, no usan contenido sin licencia para entrenar sus modelos ni ejecutan inferencias para la recuperación de sistemas generativos aumentados (RAG) usando datos web. Cloudflare descubrió que la gran mayoría (85 %) de sus clientes preferían bloquear los rastreadores de IA cuando navegaban por la web, y ahora han agregado una forma para que los usuarios lo hagan. Para habilitar la función, navegue a la sección de seguridad > bots del panel de Cloudflare y haga clic en el interruptor etiquetado como Rastreadores y raspadores de IA. Cloudflare dijo que actualizará la herramienta con el tiempo a medida que aparezcan nuevas huellas de bots que se comporten mal y que vea raspando la web para el entrenamiento de modelos. Reciba nuestras últimas noticias, actualizaciones de la industria, recursos destacados y más. Regístrate hoy para recibir nuestro informe GRATUITO sobre ciberdelitos y seguridad de IA, actualizado recientemente para 2024. Para garantizar que se mantenga al tanto de la actividad de los rastreadores de IA en la web, Cloudflare sondeó el tráfico en su red para medir qué bots son los peores infractores. Cloudflare descubrió que los cuatro principales rastreadores de IA por actividad eran ByteDance’s Bytespider, Amazonbot, Anthropic’s Claudebot y GPTBot de OpenAI, y señaló que Bytespider no solo lidera en términos de cantidad de solicitudes, sino también tanto en el alcance de su rastreo como en la frecuencia con la que se bloquea. Los bots de IA accedieron a dos quintas partes del millón de propiedades principales de Internet En la publicación del blog, Cloudflare señaló noticias recientes de algunos de los principales hiperescaladores que intentan tener en sus manos la mayor cantidad posible de datos de Internet para obtener una ventaja competitiva en un mercado en auge. Google, por ejemplo, firmó un acuerdo de licencia de contenido de IA con Reddit para obtener acceso a contenido generado por el usuario, que supuestamente vale alrededor de $ 60 millones por año. OpenAI se metió en problemas después de que lo acusaran de usar la voz de Scarlett Johansson en su nuevo modelo multimodal GPT-4o. A medida que las empresas luchan por recopilar más y más datos, es probable que Internet siga viendo una avalancha de bots de IA en el futuro. En junio, los bots de IA accedieron a alrededor del 39% del millón de propiedades de Internet más importantes que utilizan Cloudflare, pero en particular solo el 2,98% de estos dominios tomaron medidas para bloquear o desafiar esas solicitudes. Cloudflare dijo que ha observado que los operadores de sitios web bloquean por completo el acceso a los rastreadores de IA que utilizan robots.txt, pero los bloqueos dependen de que el operador del bot se adhiera al Protocolo de exclusión de robots, lo que a menudo no hacen. Desafortunadamente, la empresa señaló que ha observado que los operadores de bots intentan aparentar ser un navegador real mediante el uso de agentes de usuario falsificados, pero afirmó que su modelo de aprendizaje automático ha podido detectar esta actividad hasta ahora. A los bots se les asignará una puntuación para reflejar que se ha identificado correctamente como un «bot probable», que Cloudflare dijo que actualizaría continuamente aprovechando su señales. Los clientes de Enterprise Bot Management pueden marcar actividades sospechosas enviando un informe de bucle de retroalimentación negativa falsa. Cloudflare también ha configurado una herramienta de informes donde cualquier cliente puede informar un bot de IA que está rastreando su sitio sin