La nueva función de creación de archivos AI de Claude envía con riesgos de seguridad incorporados

La mitigación recomendada de Anthrope para los usuarios es «monitorear a Claude mientras usa la función y detenerla si la ve usando o acceder a datos inesperadamente», aunque esto coloca la carga de seguridad en el usuario. El investigador independiente de IA, Simon Willison, revisando la función hoy en su blog, señaló que el consejo de Anthrope para «monitorear a Claude mientras usa la función» equivale a «externalizar injustamente el problema a los usuarios de Anthrope». Sin embargo, las mitigaciones de Anthrope Anthrope no ignoran por completo el problema, y ​​ha implementado varias medidas de seguridad para la función de creación de archivos. La compañía ha implementado un clasificador que intenta detectar inyecciones rápidas y detener la ejecución si se detectan. Además, para los usuarios de Pro y Max, Anthrope deshabilitó el intercambio público de conversaciones que usan la función de creación de archivos. Para los usuarios empresariales, la compañía implementó el aislamiento de Sandbox para que los entornos nunca se compartan entre los usuarios. La compañía también limitó la duración de la tarea y el tiempo de ejecución del contenedor «para evitar bucles de actividad maliciosa». Anthrope proporciona una lista de los dominios que Claude puede acceder para todos los usuarios, incluidos API.anthropic.com, Github.com, Registry.npmjs.org y pypi.org. Los administradores de equipo y empresas tienen control sobre si habilitar la función para la documentación de Anthrope de sus organizaciones, afirma que la compañía tiene «un proceso continuo para las pruebas de seguridad continuas y el equipo rojo de esta característica». La compañía alienta a las organizaciones a «evaluar estas protecciones contra sus requisitos de seguridad específicos al decidir si habilita esta característica». Inyecciones rápidas en abundancia incluso con las medidas de seguridad de Anthrope, Willison dice que será cauteloso. «Planeo ser cauteloso usando esta función con cualquier dato que no quiero filtrarme a un tercero, si existe la menor posibilidad de que una instrucción maliciosa se abre paso», escribió en su blog. Cubrimos una vulnerabilidad potencial de inyección rápida similar con Claude para Chrome de Anthrope, que se lanzó como una vista previa de investigación el mes pasado. Para los clientes empresariales que consideran Claude para documentos comerciales confidenciales, la decisión de Anthrope de enviar con vulnerabilidades documentadas sugiere que la presión competitiva puede estar anulando las consideraciones de seguridad en la carrera armamentista de IA. Ese tipo de filosofía de «enviarlo primero, asegurarlo más tarde» ha causado frustraciones entre algunos expertos en IA como Willison, que ha documentado ampliamente las vulnerabilidades de inyección inmediata (y acuñado el término). Recientemente describió el estado actual de la seguridad de la IA como «horrible» en su blog, señalando que estas vulnerabilidades de inyección inmediata siguen siendo generalizadas «casi tres años después de que comenzamos a hablar de ellas». En una advertencia presciente de septiembre de 2022, Willison escribió que «puede haber sistemas que no deben construirse en absoluto hasta que tengamos una solución robusta». ¿Su evaluación reciente en el presente? «¡Parece que los construimos de todos modos!» Esta historia se actualizó el 10 de septiembre de 2025 a las 9:50 a.m. para corregir la información sobre los esfuerzos de equipo rojo de Anthrope y agregar detalles a las medidas de mitigación de Anthrope.