La perplejidad del motor de búsqueda de IA está utilizando bots de sigilo y otras tácticas para evadir las directivas de no entradas de los sitios web, una acusación de que si True viola las normas de Internet que han estado vigentes durante más de tres décadas, el servicio de seguridad y optimización de redes Cloudflare dijo el lunes. En una publicación de blog, los investigadores de Cloudflare dijeron que la compañía recibió quejas de clientes que habían rechazado los bots de raspado por perplejidad mediante la implementación de configuraciones en los archivos de txos de sus sitios y a través de firewalls de aplicaciones web que bloquearon los rastreadores de perplejidad declarados. A pesar de esos pasos, dijo Cloudflare, la perplejidad continuó accediendo al contenido de los sitios. Los investigadores dijeron que luego se propusieron probarlo por sí mismos y descubrieron que cuando los rastreadores de perplejidad conocidos encontraron bloques de robots. Archivos de txt o reglas de firewall, la perplejidad registraron los sitios usando un bot sigiloso que siguió una variedad de tácticas para enmascarar su actividad. > 10,000 dominios y millones de solicitudes «Este rastreador no declarado utilizó múltiples IP que no figuran en el rango de IP oficial de Perplexity, y girarían a través de estos IP en respuesta a la política restrictiva de robots.txt y bloquean desde Cloudflare», escribieron los investigadores. «Además de las IP giratorias, observamos solicitudes provenientes de diferentes ASN en intentos de evadir aún más los bloques de sitios web. Esta actividad se observó a través de decenas de miles de dominios y millones de solicitudes por día». Los investigadores proporcionaron el siguiente diagrama para ilustrar el flujo de la técnica que alegan la perplejidad utilizada. Si es cierto, la evasión burla de las normas de Internet en su lugar durante más de tres décadas. En 1994, el ingeniero Martijn Koster propuso el protocolo de exclusión de los robots, que proporcionó un formato legible por máquina para informar a los rastreadores que no estaban permitidos en un sitio determinado. Sitios que su contenido indexado instaló el archivo Simple Robots.txt en la parte superior de su página de inicio. El estándar, que ha sido ampliamente observado y respaldado desde entonces, se convirtió formalmente en un estándar bajo la Fuerza de Tarea de Ingeniería de Internet en 2022.
Deja una respuesta