A estas alturas, es probable que haya oído hablar de llamadas fraudulentas que usan IA para clonar las voces de las personas que el destinatario conoce. A menudo, el resultado es lo que suena como un nieto, CEO o colega de trabajo que ha conocido durante años informando un asunto urgente que requiere acciones inmediatas, diciendo que cablee dinero, divulgue las credenciales de inicio de sesión o visite un sitio web malicioso. Investigadores y funcionarios del gobierno han advertido sobre la amenaza durante años, con la Agencia de Seguridad de Ciberseguridad e Infraestructura que dice en 2023 que las amenazas de Deepfakes y otras formas de medios sintéticos han aumentado «exponencialmente». El año pasado, la División de Seguridad Mandiant de Google informó que tales ataques se están ejecutando con «precisión extraña, creando esquemas de phishing más realistas». Anatomía de una llamada de estafa de Deepfake el miércoles, la firma de seguridad del grupo de IB describió los pasos básicos involucrados en la ejecución de este tipo de ataques. La conclusión es que son fáciles de reproducir a escala y pueden ser difíciles de detectar o repeler. El flujo de trabajo de un ataque de Deepfake Vishing. Crédito: Grupo-IB El flujo de trabajo de un ataque de Vishing Deepfake. Crédito: Grupo-IB Los pasos básicos son: recolectar muestras de voz de la persona que será hacerse pasar por Las muestras tan cortas como tres segundos a veces son adecuadas. Pueden provenir de videos, reuniones en línea o llamadas de voz anteriores. Alimentando las muestras en motores de síntesis del habla basados en IA, como Tacotron 2 de Google, Vall-E de Microsoft, o servicios de once y se asemejan a la IA. Estos motores permiten al atacante usar una interfaz de texto a voz que produce palabras elegidas por el usuario con el tono de voz y los tics conversacionales de la persona que se hace sonafurando. La mayoría de los servicios impiden tal uso de profundos, pero como los informes de los consumidores encontrados en marzo, las salvaguardas que estas compañías tienen para frenar la práctica podrían pasar por alto con un mínimo esfuerzo. Un paso opcional es falsificar el número que pertenece a la persona u organización que se hace pasar por su parte. Este tipo de técnicas se han utilizado durante décadas. Luego, los atacantes inician la llamada de estafa. En algunos casos, la voz clonada seguirá un guión. En otros ataques más sofisticados, el discurso falso se genera en tiempo real, utilizando enmascaramiento de voz o software de transformación. Los ataques en tiempo real pueden ser más convincentes porque permiten al atacante responder a las preguntas que un receptor escéptico puede hacer. «Aunque la suplantación en tiempo real ha sido demostrada por proyectos de código abierto y API comerciales, Deepfake en tiempo real Vishing in the-Wild sigue siendo limitado», dijo Group-IB. «Sin embargo, dados los avances continuos en la velocidad de procesamiento y la eficiencia del modelo, se espera que el uso en tiempo real se vuelva más común en el futuro cercano».
Deja una respuesta