VLOGGER puede tomar una sola fotografía de alguien y crear clips en alta fidelidad y de diferentes longitudes, con expresiones faciales y movimientos corporales precisos, hasta un parpadeo, superando los tipos anteriores de software de «cabezas parlantes». GoogleLa comunidad de inteligencia artificial (IA) se ha vuelto tan buena en producir imágenes en movimiento falsas (eche un vistazo a Sora de OpenAI, presentada el mes pasado, con sus ingeniosos vuelos imaginarios) que uno tiene que plantearse una pregunta intelectual y práctica: ¿qué ¿Qué deberíamos hacer con todos estos videos? Además: OpenAI presenta el modelo de texto a video y los resultados son sorprendentes. Compruébalo tú mismoEsta semana, el estudioso de Google Enric Corona y sus compañeros respondieron: contrólalos usando nuestra herramienta VLOGGER. VLOGGER puede generar un vídeo de alta resolución de personas hablando a partir de una sola fotografía. Más importante aún, VLOGGER puede animar el vídeo según una muestra de voz, lo que significa que la tecnología puede animar los vídeos como una imagen controlada de una persona, un «avatar» de alta fidelidad. Esta herramienta podría permitir todo tipo de creaciones. En el nivel más simple, el equipo de Corona sugiere que VLOGGER podría tener un gran impacto en los avatares del servicio de asistencia técnica porque los humanos sintéticos que hablan de apariencia más realista pueden «desarrollar empatía». Sugieren que la tecnología podría «permitir casos de uso completamente nuevos, como comunicación en línea mejorada, educación o asistentes virtuales personalizados». VLOGGER también podría conducir a una nueva frontera en deepfakes, semejanzas aparentemente reales que dicen y hacen cosas como la persona real. en realidad nunca lo hice. El equipo de Corona tiene la intención de considerar las implicaciones sociales de VLOGGER en materiales de apoyo complementarios. Sin embargo, ese material no está disponible en la página de GitHub del proyecto. ZDNET se acercó a Corona para preguntarle sobre los materiales de apoyo, pero no recibió respuesta al momento de la publicación. Además: a medida que los agentes de IA se propagan, también lo hacen los riesgos, dicen los académicos. Como se describe en el documento formal, «VLOGGER: Multimodal Diffusion for Embodied Avatar Synthesis». «, el equipo de Corona pretende superar las imprecisiones de los últimos avances en avatares. «La creación de vídeos realistas de humanos sigue siendo compleja y repleta de artefactos», escribió el equipo de Corona. El equipo observó que los avatares de vídeo existentes a menudo recortan el cuerpo y las manos, mostrando sólo la cara. VLOGGER puede mostrar torsos enteros junto con movimientos de las manos. Otras herramientas suelen tener variaciones limitadas en las expresiones faciales o poses y ofrecen solo una sincronización de labios rudimentaria. VLOGGER puede generar «vídeos de alta resolución del movimiento de la cabeza y la parte superior del cuerpo». […] presenta expresiones faciales y gestos considerablemente diversos» y es «el primer enfoque para generar humanos que hablan y se mueven a partir de entradas de voz». Como explicó el equipo de investigación, «es precisamente la automatización y el realismo conductual lo que [are] Lo que buscamos en este trabajo: VLOGGER es una interfaz multimodal para un agente conversacional encarnado, equipada con una representación visual animada y de audio, que presenta expresiones faciales complejas y un nivel creciente de movimiento corporal, diseñada para respaldar conversaciones naturales con un usuario humano. .» A partir de una única fotografía, a la izquierda, el software VLOGGER predice los fotogramas de vídeo, a la derecha, que deben acompañar cada momento de un archivo de sonido de alguien hablando, mediante un proceso conocido como «difusión», y luego genera esos fotogramas de vídeo. en calidad de alta definición. GoogleVLOGGER reúne algunas tendencias recientes en aprendizaje profundo. La multimodalidad converge los muchos modos que las herramientas de inteligencia artificial pueden absorber y sintetizar, incluidos texto y audio, e imágenes y videos. Grandes modelos de lenguaje como GPT-4 de OpenAI hacen posible utilizar el lenguaje natural como entrada para impulsar acciones de diversos tipos, ya sea la creación de párrafos de texto, una canción o una imagen. Los investigadores también han encontrado numerosas formas de crear imágenes y videos realistas en los últimos años refinando la «difusión». .» El término proviene de la física molecular y se refiere a cómo, a medida que aumenta la temperatura, las partículas de materia pasan de estar muy concentradas en una zona a estar más dispersas. Por analogía, los fragmentos de información digital pueden considerarse «difusos» cuanto más incoherentes se vuelven con el ruido digital. Además: dejemos de lado a Gemini, la IA de código abierto tiene sus propios trucos de vídeoLa difusión de IA introduce ruido en una imagen y reconstruye la imagen original. entrenar una red neuronal para encontrar las reglas mediante las cuales fue construida. La difusión es la raíz del impresionante proceso de generación de imágenes en Stable Diffusion de Stability AI y DALL-E de OpenAI. También es la forma en que OpenAI crea videos ingeniosos en Sora. Para VLOGGER, el equipo de Corona entrenó una red neuronal para asociar el audio de un orador con fotogramas individuales de video de ese orador. El equipo combinó un proceso de difusión para reconstruir el cuadro de video a partir del audio utilizando otra innovación reciente, el Transformer. Transformer utiliza el método de atención para predecir fotogramas de vídeo basándose en fotogramas que ocurrieron en el pasado, junto con el audio. Al predecir acciones, la red neuronal aprende a representar movimientos precisos de las manos y del cuerpo y expresiones faciales, cuadro por cuadro, en sincronía con el audio. El paso final es utilizar las predicciones de esa primera red neuronal para impulsar posteriormente la generación de alta definición. fotogramas de resolución de vídeo utilizando una segunda red neuronal que también emplea difusión. Ese segundo paso también es un punto máximo en materia de datos. Además: la IA generativa falla en esta habilidad tan común del pensamiento humano. Para crear imágenes de alta resolución, el equipo de Corona compiló MENTOR, un conjunto de datos que presenta 800.000 «identidades» de videos de personas hablando. MENTOR consta de 2200 horas de vídeo, lo que, según el equipo, lo convierte en «el conjunto de datos más grande utilizado hasta la fecha en términos de identidades y duración» y es 10 veces más grande que conjuntos de datos comparables anteriores. Los autores descubren que pueden mejorar ese proceso con un siguiente en un paso llamado «ajuste fino». Al enviar un vídeo completo a VLOGGER, después de que ya haya sido «preentrenado» en MENTOR, pueden capturar de manera más realista las idiosincrasias del movimiento de la cabeza de una persona, como el parpadeo: «Ajustando nuestro modelo de difusión con más datos , en un vídeo monocular de un sujeto, VLOGGER puede aprender a capturar mejor la identidad, por ejemplo, cuando la imagen de referencia muestra los ojos cerrados», un proceso al que el equipo se refiere como «personalización». La red neuronal de VLOGGER es una combinación de dos redes neuronales diferentes. El primero utiliza «atención enmascarada» a través de un transformador para predecir qué poses deberían ocurrir en un cuadro de video basándose en el sonido proveniente de la señal de audio grabada del hablante. La segunda red neuronal utiliza la difusión para generar una secuencia consistente de fotogramas de video utilizando las pistas de movimiento y expresión corporal de la primera red neuronal. Google El punto más importante de este enfoque (vincular las predicciones en una red neuronal con imágenes de alta resolución, y lo que hace que VLOGGER sea provocativo) es que el programa no se limita a generar un vídeo, como lo hace Sora. VLOGGER vincula ese video con acciones y expresiones que se pueden controlar. Sus vídeos realistas se pueden manipular a medida que se desarrollan, como marionetas. Además: el director ejecutivo de Nvidia, Jensen Huang, presenta la familia de chips ‘Blackwell’ de próxima generación en el GTC «Nuestro objetivo es cerrar la brecha entre los recientes esfuerzos de síntesis de vídeo», escribió el equipo de Corona, » que puede generar videos dinámicos sin control sobre la identidad o la pose, y métodos de generación de imágenes controlables. «VLOGGER no solo puede ser un avatar controlado por voz, sino que también puede llevar a funciones de edición, como alterar la boca o los ojos de una persona que habla. sujeto. Por ejemplo, una persona virtual que parpadea mucho en un vídeo podría cambiarse para que parpadee poco o no parpadee en absoluto. Una manera de hablar con la boca abierta podría reducirse a un movimiento más discreto de los labios. Habiendo logrado una forma de controlar videos de alta resolución a través de señales de voz, VLOGGER abre el camino a manipulaciones, como cambiar los movimientos de los labios del hablante en cada tramo del video para que sean diferentes del video original. VLOGGERHabiendo alcanzado un nuevo estado del arte en la simulación de personas, la pregunta que no aborda el equipo de Corona es qué debería esperar el mundo de cualquier uso indebido de la tecnología. Es fácil imaginar imágenes de una figura política diciendo algo absolutamente catastrófico sobre, digamos, una guerra nuclear inminente. Presumiblemente, la siguiente etapa en este juego de avatar serán las redes neuronales que, como la ‘prueba de Voight-Kampff’ en la película Blade Runner, puede ayudar a la sociedad a detectar qué hablantes son reales y cuáles son simplemente deepfakes con modales notablemente realistas.

Source link