EspañolLos visitantes de la AI Village en la conferencia de hackers DEF CON de este año tendrán la oportunidad de protagonizar su propio video deepfake simplemente parándose frente a la cámara de Brandon Kovacs y observando cómo los convierte en una imagen digital de un compañero asistente, por una buena causa. Kovacs es un miembro senior del equipo rojo en la empresa de seguridad Bishop Fox, y esta no será la primera vez que crea clones de voz y video en tiempo real, y demuestra lo fácil que es para los delincuentes usar estas técnicas para mejorar los ataques de ingeniería social. En una entrevista con The Register, Kovacs dijo que una estafa de $ 25 millones que involucraba una videollamada deepfake a principios de este año le llamó la atención «y me llevó a este agujero de conejo de investigación». Esa llamada se realizó en febrero, cuando un profesional de finanzas con sede en Hong Kong en un banco multinacional pensó que estaba viendo y hablando con su director financiero con sede en Londres. En cambio, estaba conversando con un deepfake en tiempo real, que lo engañó para que hiciera una transferencia bancaria de $ 25 millones. «En ese momento pensé: ‘Vaya, eso apesta’. Pero también pensé: ‘¿Cómo lo hacen?’ Realmente lo admiré desde una perspectiva técnica», dijo Kovacs. Por lo tanto, comenzó a buscar a alguien para clonar y reclutó a su colega de Bishop Fox y campeona de Capture the Flag de DEF CON Social Engineering, Alethe Denis, para que lo ayudara. La imagen y la voz de Denis están por todo Internet porque ha aparecido en muchas entrevistas, podcasts y webcasts, y ha hablado en varias conferencias de seguridad de la información. Kovacs decidió probar una hipótesis. «¿Podemos clonar con éxito a alguien utilizando solo información pública que está en Internet utilizando herramientas de código abierto?». Luego, el dúo entrenó modelos de aprendizaje automático utilizando imágenes disponibles públicamente de Denis. Usaron una cámara DSLR profesional, lentes, iluminación, pelucas, accesorios, pantalla verde y software de producción. El resultado es un video en tiempo real que parece ser de Denis, pero en realidad es Kovacs sentado en lo que parece ser la oficina en casa de Denis. «En un momento dado, en lo que llamamos la ‘Prueba de Turing de deepfake’, enrutamos las salidas del video y la voz de deepfake como entradas de cámara y micrófono para Microsoft Teams», escribió Kovacs en una publicación de LinkedIn que incluye el video. «Luego hablé con sus hijos a través de una videollamada en vivo, quienes creyeron que estaban hablando con su madre». Si bien engañar a los niños siempre es divertido, la broma se desmorona cuando los delincuentes se benefician de técnicas similares. «En el contexto de MGM [ransomware] «Los hackers llamaron al servicio de asistencia de TI y dijeron ser alguien de la organización que intentaba restablecer su contraseña. Ahora imaginemos que tienen esa misma capacidad, pero también pueden sonar como esa persona», dijo Kovacs. La creación de deepfakes no requiere grandes recursos, ni para los delincuentes ni para otros usuarios. DeepFaceLab, que permite a los usuarios entrenar modelos y crear deepfakes, se puede descargar gratis. Retrieval-based Voice Conversion (RVC) es un proyecto de código abierto para entrenar modelos de voz. Una tarjeta gráfica de consumo puede costar unos 1.600 dólares. Y aunque Kovacs cree que usar iluminación de estudio de alta gama y una cámara DSLR «eleva enormemente la autenticidad de la escena y el intercambio de rostros, en comparación con usar una cámara web estándar», Kovacs señala que gastar «un par de miles en la cámara, una lente, iluminación de estudio y todo lo demás, sigue siendo una miseria cuando se trata de robar 25 millones de dólares». Kovacs llevará su «estudio en una caja», que incluye pelucas, luces, una pantalla verde y otros equipos a Las Vegas y permitirá que los asistentes a DEF CON lo prueben. «La idea es transformar a esa persona, en tiempo real, y hacer que se vea como otra persona, y luego colocarla en un entorno interactivo, o un estudio o una oficina, para demostrar cómo se ve cuando se muestra esto en tiempo real», dijo. Los clones de video y audio que Kovacs hace se utilizarán para alimentar una herramienta de detección de deepfake que está desarrollando el programa Semantic Forensics de DARPA, que también se demostrará en AI Village. «Esta es una nueva aventura para nosotros», dijo el gerente del programa DARPA, Wil Corvey. El programa AI village, que tiene como objetivo desarrollar tecnologías semánticas para analizar los medios, tiene cuatro años. Su trabajo incluye la creación de algoritmos de detección para determinar si el video, el audio, las imágenes y el texto han sido generados o manipulados. También se está trabajando en un algoritmo de atribución que determinará si los medios se originan en una organización o persona en particular. «Creamos una plataforma que aparecerá en la pantalla de DEF CON, en AI Village, que es básicamente una herramienta de clasificación, entre otras cosas, para videos, audios, imágenes y textos que han sido manipulados o sintetizados por medios de redes sociales», dijo Corvey a The Register. «Los videos deepfake son una capa de eso, que captura la imaginación de las personas». «Por eso, estamos llevando algunos de nuestros análisis a DEF CON, colocándolos en esta interfaz de usuario y ayudando a las personas a comprender los flujos de trabajo actuales para este tipo de análisis forense y nos ayuda, a su vez, a comprender cómo deberíamos pensar en la creación de equipos rojos para que tengamos una capacidad de clasificación de información lo más sólida posible, colectivamente como sociedad», explicó Corvey. ®