La división de la nube de Amazon ha iniciado una investigación sobre Perplexity AI. La cuestión es si la startup de búsquedas con inteligencia artificial está violando las reglas de Amazon Web Services al eliminar sitios web que intentaron evitar que lo hiciera, según ha podido saber WIRED. Un portavoz de AWS, que habló con WIRED con la condición de que no se revelara su nombre, confirmó la investigación de la empresa sobre Perplexity. WIRED había descubierto anteriormente que la startup, que cuenta con el respaldo del fondo familiar de Jeff Bezos y de Nvidia, y que recientemente fue valorada en 3.000 millones de dólares, parece depender del contenido de sitios web eliminados que tenían prohibido el acceso a través del Protocolo de Exclusión de Robots, un estándar web común. Si bien el Protocolo de Exclusión de Robots no es legalmente vinculante, los términos del servicio generalmente lo son. El Protocolo de Exclusión de Robots es un estándar web de hace décadas que implica colocar un archivo de texto sin formato (como wired.com/robots.txt) en un dominio para indicar a qué páginas no deben acceder los robots y rastreadores automatizados. Si bien las empresas que utilizan raspadores pueden optar por ignorar este protocolo, la mayoría lo ha respetado tradicionalmente. El portavoz de Amazon le dijo a WIRED que los clientes de AWS deben cumplir con el estándar robots.txt al rastrear sitios web. «Los términos de servicio de AWS prohíben a los clientes usar nuestros servicios para cualquier actividad ilegal, y nuestros clientes son responsables de cumplir con nuestros términos y todas las leyes aplicables», dijo el portavoz en un comunicado. El escrutinio de las prácticas de Perplexity sigue a un informe del 11 de junio de Forbes que acusó a la startup de robar al menos uno de sus artículos. Las investigaciones de WIRED confirmaron la práctica y encontraron más evidencia de abuso y plagio de scraping por parte de sistemas vinculados al chatbot de búsqueda impulsado por IA de Perplexity. Los ingenieros de Condé Nast, la empresa matriz de WIRED, bloquean el rastreador de Perplexity en todos sus sitios web utilizando un archivo robots.txt. Pero WIRED descubrió que la compañía tenía acceso a un servidor que utilizaba una dirección IP no publicada (44.221.181.252) que visitó propiedades de Condé Nast al menos cientos de veces en los últimos tres meses, aparentemente para rastrear sitios web de Condé Nast. La máquina asociada con Perplexity parece estar involucrada en el rastreo generalizado de sitios web de noticias que prohíben a los bots acceder a su contenido. Los portavoces de The Guardian, Forbes y The New York Times también dicen que detectaron que la dirección IP visitaba repetidamente sus servidores. WIRED rastreó la dirección IP hasta una máquina virtual conocida como instancia Elastic Compute Cloud (EC2) alojada en AWS, que inició su investigación después de que le preguntáramos si usar la infraestructura de AWS para rastrear sitios web que lo prohibían violaba los términos de servicio de la compañía. La semana pasada, el director ejecutivo de Perplexity, Aravind Srinivas, respondió a la investigación de WIRED primero diciendo que las preguntas que le hicimos a la compañía «reflejan una incomprensión profunda y fundamental de cómo funcionan Perplexity e Internet». Srinivas le dijo a Fast Company que la dirección IP secreta que WIRED observó al rastrear sitios web de Condé Nast y un sitio de prueba que creamos estaba operada por una empresa externa que realiza servicios de rastreo e indexación web. Se negó a nombrar a la empresa, citando un acuerdo de confidencialidad. Cuando se le preguntó si le diría al tercero que dejara de rastrear a WIRED, Srinivas respondió: «Es complicado».