Ampliar / Una imagen de muestra de Microsoft para «VASA-1: caras parlantes realistas impulsadas por audio generadas en tiempo real». El martes, Microsoft Research Asia presentó VASA-1, un modelo de inteligencia artificial que puede crear un video animado sincronizado de una persona hablando o cantando a partir de una sola foto y una pista de audio existente. En el futuro, podría impulsar avatares virtuales que se representen localmente y no requieran transmisiones de video, o permitir que cualquier persona con herramientas similares tome una foto de una persona encontrada en línea y haga que parezca que dice lo que quiera. «Allana el camino para interacciones en tiempo real con avatares realistas que emulan comportamientos conversacionales humanos», se lee en el resumen del artículo de investigación adjunto titulado «VASA-1: Caras parlantes realistas impulsadas por audio generadas en tiempo real». Es obra de Sicheng Xu, Guojun Chen, Yu-Xiao Guo, Jiaolong Yang, Chong Li, Zhenyu Zang, Yizhong Zhang, Xin Tong y Baining Guo. El marco VASA (abreviatura de «Visual Affective Skills Animator») utiliza el aprendizaje automático para analizar una imagen estática junto con un clip de audio de voz. Luego puede generar un video realista con expresiones faciales precisas, movimientos de cabeza y sincronización de labios con el audio. No clona ni simula voces (como otras investigaciones de Microsoft), sino que se basa en una entrada de audio existente que podría grabarse o hablarse especialmente para un propósito particular. Microsoft afirma que el modelo supera significativamente a los métodos anteriores de animación de voz en términos de realismo, expresividad y eficiencia. A nuestros ojos, parece una mejora con respecto a los modelos de animación de una sola imagen anteriores. Los esfuerzos de investigación de IA para animar una sola foto de una persona o personaje se remontan al menos a algunos años atrás, pero más recientemente, los investigadores han estado trabajando para sincronizar automáticamente un video generado con una pista de audio. En febrero, un modelo de IA llamado EMO: Emote Portrait Alive del grupo de investigación del Instituto de Computación Inteligente de Alibaba causó sensación con un enfoque similar al VASA-1 que puede sincronizar automáticamente una foto animada con una pista de audio proporcionada (lo llaman «Audio2Video»). . Entrenado con clips de YouTube Los investigadores de Microsoft entrenaron VASA-1 en el conjunto de datos VoxCeleb2 creado en 2018 por tres investigadores de la Universidad de Oxford. Ese conjunto de datos contiene «más de 1 millón de declaraciones de 6.112 celebridades», según el sitio web VoxCeleb2, extraído de vídeos subidos a YouTube. Según se informa, VASA-1 puede generar videos con una resolución de 512×512 píxeles a hasta 40 cuadros por segundo con una latencia mínima, lo que significa que podría usarse para aplicaciones en tiempo real como videoconferencias. Para mostrar el modelo, Microsoft creó una página de investigación VASA-1 que presenta muchos videos de muestra de la herramienta en acción, incluidas personas cantando y hablando en sincronización con pistas de audio pregrabadas. Muestran cómo se puede controlar al modelo para que exprese diferentes estados de ánimo o cambie su mirada. Los ejemplos también incluyen algunas generaciones más fantasiosas, como Mona Lisa rapeando con una pista de audio de Anne Hathaway interpretando una canción de «Paparazzi» sobre Conan O’Brien. Los investigadores dicen que, por razones de privacidad, cada foto de ejemplo en su página fue generada por IA mediante StyleGAN2 o DALL-E 3 (aparte de la Mona Lisa). Pero es obvio que la técnica también podría aplicarse a fotografías de personas reales, aunque es probable que funcione mejor si una persona se parece a una celebridad presente en el conjunto de datos de entrenamiento. Aún así, los investigadores dicen que falsificar a humanos reales no es su intención. Anuncio «Estamos explorando la generación de habilidades afectivas visuales para personajes virtuales e interactivos. [sic]NO hacerse pasar por ninguna persona en el mundo real. Esto es sólo una demostración de investigación y no hay ningún producto o plan de lanzamiento de API», se lee en el sitio. Si bien los investigadores de Microsoft promocionan posibles aplicaciones positivas como mejorar la equidad educativa, mejorar la accesibilidad y brindar compañía terapéutica, la tecnología también podría usarse indebidamente fácilmente. Por ejemplo, podría permitir que las personas falsifiquen chats de video, hacer que personas reales parezcan decir cosas que en realidad nunca dijeron (especialmente cuando se combinan con una pista de voz clonada) o permitir el acoso desde una sola foto de las redes sociales. Parece imperfecto en algunos aspectos, pero podría ser bastante convincente para algunas personas si no supieran que esperarían una animación generada por IA. Los investigadores dicen que son conscientes de esto, razón por la cual no están publicando abiertamente el código que impulsa la animación. modelo «Nos oponemos a cualquier comportamiento que cree contenidos engañosos o dañinos de personas reales, y estamos interesados ​​en aplicar nuestra técnica para avanzar en la detección de falsificaciones», escriben los investigadores. «Actualmente, los vídeos generados por este método todavía contienen artefactos identificables, y el análisis numérico muestra que todavía hay una brecha para lograr la autenticidad de los vídeos reales». VASA-1 es sólo una demostración de investigación, pero Microsoft está lejos de ser el único grupo que desarrolla una tecnología similar. Si la historia reciente de la IA generativa sirve de guía, es potencialmente sólo cuestión de tiempo antes de que una tecnología similar se convierta en código abierto y esté disponible gratuitamente, y es muy probable que su realismo siga mejorando con el tiempo.