La compañía probó 123 casos que representan 29 escenarios de ataque diferentes y encontró una tasa de éxito de ataque del 23.6 por ciento cuando el uso del navegador funcionó sin mitigaciones de seguridad. Un ejemplo involucró un correo electrónico malicioso que instruyó a Claude a eliminar los correos electrónicos de un usuario para fines de «higiene de buzón». Sin salvaguardas, Claude siguió estas instrucciones y eliminó los correos electrónicos del usuario sin confirmación. Anthrope dice que ha implementado varias defensas para abordar estas vulnerabilidades. Los usuarios pueden otorgar o revocar el acceso de Claude a sitios web específicos a través de permisos a nivel de sitio. El sistema requiere confirmación del usuario antes de que Claude tome acciones de alto riesgo como publicar, comprar o compartir datos personales. La compañía también ha bloqueado a Claude para acceder a sitios web que ofrecen servicios financieros, contenido para adultos y contenido pirateado por defecto. Estas medidas de seguridad redujeron la tasa de éxito del ataque del 23.6 por ciento al 11.2 por ciento en modo autónomo. En una prueba especializada de cuatro tipos de ataque específicos del navegador, las nuevas mitigaciones redujeron la tasa de éxito del 35.7 por ciento al 0 por ciento. El investigador independiente de IA, Simon Willison, quien ha escrito ampliamente sobre los riesgos de seguridad de IA y ha acuñado el término «inyección rápida» en 2022, llamada la tasa de ataque restante del 11.2 por ciento «catastrófica», escribiendo en su blog que «en ausencia de una protección 100% confiable tengo problemas para imaginar un mundo en el que es una buena idea desatar este patrón». Por «Pattern», Willison se refiere a la tendencia reciente de integrar a los agentes de IA en los navegadores web. «Espero firmemente que todo el concepto de extensión de un navegador de agente sea fatalmente defectuoso y no se pueda construir de manera segura», escribió en una publicación anterior sobre problemas de seguridad de inyección rápida similares recientemente encontrados en el cometa perplexity. Los riesgos de seguridad ya no son teóricos. La semana pasada, el equipo de seguridad de Brave descubrió que el navegador Comet de Perplexity podría ser engañado para acceder a las cuentas de Gmail de los usuarios y activar los flujos de recuperación de contraseñas a través de instrucciones maliciosas ocultas en publicaciones de Reddit. Cuando los usuarios le pidieron a Comet que resumiera un hilo de Reddit, los atacantes podrían incrustar comandos invisibles que instruyeron a la IA que abriera Gmail en otra pestaña, extrae la dirección de correo electrónico del usuario y realice acciones no autorizadas. Aunque la perplejidad intentó arreglar la vulnerabilidad, Brave luego confirmó que sus mitigaciones fueron derrotadas y el agujero de seguridad permaneció. Por ahora, Anthrope planea utilizar su nueva vista previa de investigación para identificar y abordar los patrones de ataque que surgen en el uso del mundo real antes de hacer que la extensión de Chrome esté más ampliamente disponible. En ausencia de buenas protecciones de los proveedores de IA, la carga de la seguridad recae en el usuario, que está tomando un gran riesgo al usar estas herramientas en la web abierta. Como Willison señaló en su publicación sobre Claude para Chrome, «No creo que sea razonable esperar que los usuarios finales tomen buenas decisiones sobre los riesgos de seguridad».
Deja una respuesta