OpenAI presentó la semana pasada una nueva capacidad para su plataforma de IA generativa (genAI) que puede utilizar una entrada de texto para generar vídeo, completo con actores realistas y otras partes móviles. El nuevo modelo genAI, llamado Sora, tiene una función de conversión de texto a función de video que puede crear escenas en movimiento complejas y realistas con múltiples personajes, tipos específicos de movimiento y detalles precisos del sujeto y el fondo «mientras mantiene la calidad visual y el cumplimiento de las indicaciones del usuario». Sora no solo entiende lo que pide el usuario en la indicación, sino también cómo existen esas cosas en el mundo físico. La tecnología básicamente traduce descripciones escritas en contenido de video, aprovechando modelos de inteligencia artificial que comprenden la entrada de texto y generan los elementos visuales y auditivos correspondientes, según Bernard Marr, un futurista tecnológico y empresario. consultor de tecnología.“Este proceso involucra algoritmos de aprendizaje profundo capaces de interpretar texto y sintetizar videos que reflejan las escenas, acciones y diálogos descritos”, dijo Marr. Si bien no es una nueva capacidad para motores de IA ofrecida por otros proveedores, como Gemini de Google, Se espera que el impacto de Sora sea profundo, según Marr. Los métodos de edición de imágenes basados ​​en texto Lumiere de Google se pueden utilizar para editar videos. Como cualquier tecnología genAI avanzada, dijo, el impacto de Sora ayudará a remodelar la creación de contenido, mejorando la narración y democratizando la producción de video. «Las capacidades de texto a video tienen un inmenso potencial en diversos campos como la educación, donde pueden crear materiales de aprendizaje inmersivos; marketing; «, para generar contenido atractivo; y entretenimiento, para crear prototipos y contar historias rápidamente», dijo Marr. Sin embargo, advirtió Marr, la capacidad de los modelos de IA para traducir descripciones textuales en videos completos también subraya la necesidad de consideraciones éticas rigurosas y salvaguardias contra el uso indebido. «El surgimiento de la tecnología de texto a video introduce cuestiones complejas relacionadas con la infracción de derechos de autor, particularmente porque se vuelve capaz de generar contenido que podría reflejar fielmente obras protegidas por derechos de autor», dijo Marr. «El panorama legal en esta área se está navegando actualmente a través de varias demandas en curso, por lo que es prematuro afirmar definitivamente cómo se resolverán las preocupaciones sobre derechos de autor». Potencialmente más preocupante es la capacidad de la tecnología para producir deepfakes altamente convincentes, planteando graves problemas éticos y de privacidad. cuestiones, lo que subraya la necesidad de un escrutinio y una regulación minuciosos, dijo Marr. Dan Faggella, fundador e investigador principal de Emerj Artificial Intelligence, hizo una presentación sobre deepfakes en las Naciones Unidas hace cinco años. En ese momento, enfatizó que, independientemente de las advertencias sobre deepfakes, “la gente querrá creer lo que quiera creer”. Sin embargo, hay una consideración más importante: pronto, las personas podrán vivir en mundos genAI donde se colocarán unos auriculares y le dirán a un modelo de IA que cree un mundo único para satisfacer sus necesidades emocionales, ya sea relajación, humor, acción, todo. construido programáticamente específicamente para ese usuario. “Y lo que la máquina podrá hacer es evocar experiencias visuales y de audio y eventualmente hápticas para mí que están entrenadas en el [previous experiences] usando los auriculares”, dijo Faggella. “Necesitamos pensar en esto desde un punto de vista político; ¿Cuánto de ese escapismo permitimos? Los modelos de texto a video también pueden crear aplicaciones que evocan experiencias de IA para ayudar a las personas a ser productivas, educarlas y mantenerlas enfocadas en su trabajo más importante. «Tal vez capacitarlos para que sean excelentes vendedores, tal vez ayudarlos a escribir código excelente y codificar mucho más de lo que pueden hacer ahora», dijo. Tanto el modelo de inteligencia artificial multimodal Sora de OpenAI como el Gemini 1.5 de Google son por ahora proyectos de investigación internos. solo se ofrece a un cuerpo específico de académicos externos y otros que prueban la tecnología. A diferencia del popular ChatGPT de OpenAI, dijo Google, los usuarios pueden introducir en su motor de consultas una cantidad mucho mayor de información para obtener respuestas más precisas. Aunque Sora y Gemini 1.5 son actualmente proyectos de investigación internos, muestran ejemplos reales e información detallada, incluidos videos. fotos, gifs y artículos de investigación relacionados. Junto con el motor de inteligencia artificial multimodal Gemini de Google, Sora fue precedido por varios modelos de conversión de texto a video, incluidos Meta’s Emu, Runway’s Gen-2 y Stability AI’s Stable Video Diffusion. Stable Diffusion/Wikipedia El proceso de eliminación de ruido utilizado por Stable Diffusion. El modelo genera imágenes eliminando iterativamente el ruido aleatorio hasta alcanzar un número configurado de pasos; está guiado por un codificador de texto CLIP previamente entrenado en conceptos junto con el mecanismo de atención, creando una imagen que representa una representación del concepto entrenado. Google tiene dos proyectos de investigación simultáneos que avanzan en lo que un portavoz llamó «modelos de generación de video de última generación». Esos proyectos son Lumiere y VideoPoet. Lanzado a principios de este mes, Lumiere es la tecnología de generación de vídeo más avanzada de Google; ofrece 80 cuadros por segundo en comparación con los 25 cuadros por segundo de competidores como Stable Video Diffusion. “Gemini, diseñado para procesar información y automatizar tareas, ofrece una integración perfecta de modalidades desde el principio, lo que potencialmente lo hace más intuitivo para los usuarios que buscan una experiencia sencilla y orientada a tareas”, dijo Marr. «Por otro lado, el enfoque de capas de GPT-4 permite una mejora más granular de las capacidades a lo largo del tiempo, proporcionando flexibilidad y profundidad en las capacidades de conversación y generación de contenido». En una comparación directa, Sora parece más poderoso que el video de Google. modelos de generación. Mientras que Lumiere de Google puede producir un vídeo con una resolución de 512 x 512 píxeles, Sora afirma alcanzar resoluciones de hasta 1920 x 1080 píxeles o calidad HD. Los vídeos de Lumiere están limitados a unos 5 segundos de duración; Los videos de Sora pueden durar hasta un minuto. Además, Lumiere no puede hacer videos compuestos de múltiples tomas, mientras que Sora sí. Sora, al igual que otros modelos, también es capaz de realizar tareas de edición de video, como crear videos a partir de imágenes u otros videos, combinar elementos de diferentes videos y extender videos en el tiempo». En la competencia entre Sora de OpenAI y startups como Runway AI, La madurez puede ofrecer ventajas en términos de confiabilidad y escalabilidad», dijo Marr. «Si bien las nuevas empresas a menudo aportan enfoques innovadores y agilidad, OpenAI, con una gran financiación de empresas como Microsoft, podrá ponerse al día y potencialmente superarlo rápidamente». Copyright © 2024 IDG Communications, Inc.

Source link