Fotograma fijo de un vídeo generado por Sora. El mensaje de OpenAI fue: «La cámara mira directamente a los coloridos edificios de Burano, Italia. Un adorable dálmata mira a través de una ventana de un edificio en la planta baja. Mucha gente camina y anda en bicicleta por las calles del canal frente a los edificios». OpenAIOpen AI ya cuenta con modelos de IA líderes en el mercado en generación de imágenes y texto con DALL-E 3 y ChatGPT, respectivamente. Ahora, la compañía también llega al espacio de generación de texto a video con un modelo completamente nuevo. Además: Los mejores generadores de imágenes de IA de 2024: probados y revisadosEl jueves, OpenAI presentó Sora, su modelo de texto a video que puede generar videos de hasta un minuto de duración con una calidad y detalle impresionantes, como se ve en el video de demostración a continuación:Sora puede abordar escenas complejas, incluidos múltiples personajes, tipos específicos de movimiento y gran detalle, debido a la profunda comprensión del lenguaje, las indicaciones y cómo existen los sujetos en el mundo, según OpenAI. Al ver diferentes videos de demostración, puede ver que OpenAI ha logrado abordar dos grandes problemas en el espacio de generación de videos: continuidad y longevidad: Mensaje: “Una mujer elegante camina por una calle de Tokio llena de neón cálido y brillante y carteles animados de la ciudad. Lleva una chaqueta de cuero negra, un vestido largo rojo, botas negras y un bolso negro. ella usa gafas de sol y lápiz labial rojo. camina con confianza y despreocupación… pic.twitter.com/cjIdgYFaWq—OpenAI (@OpenAI) 15 de febrero de 2024 Los videos generados por IA a menudo están entrecortados y distorsionados, lo que deja claro a la audiencia dónde termina y comienza cada fotograma. Por ejemplo, Runaway AI lanzó su modelo de conversión de texto a video más avanzado, Gen-2, en marzo. Como se ve a continuación, los clips no se comparan con los del modelo de OpenAI actual: el modelo de OpenAI, por otro lado, puede generar video fluido, haciendo que cada clip generado parezca sacado de una película producida en Hollywood. Además: Cómo usar ChatGPTOpenAI dice que Sora es un modelo de difusión que puede producir resultados de alta calidad mediante el uso de una arquitectura de transformador similar a los modelos GPT, así como investigaciones anteriores de los modelos DALL-E y GPT. Además de generar vídeo a partir de texto, Sora puede generar vídeo a partir de una imagen fija o completar fotogramas faltantes de vídeos: Mensaje: “Un tráiler de película que presenta las aventuras del hombre espacial de 30 años que lleva un casco de motocicleta tejido de lana roja, cielo azul , desierto de sal, estilo cinematográfico, filmado en película de 35 mm, colores vivos”. pic.twitter.com/0JzpwPUGPB— OpenAI (@OpenAI) 15 de febrero de 2024 A pesar de mostrar todos sus avances, OpenAI también aborda las debilidades del modelo, afirmando que a veces puede tener dificultades para «simular la física de una escena compleja y puede no comprenderla». casos específicos de causa y efecto.» El modelo también podría confundir los detalles espaciales de una indicación. El modelo está disponible primero para los miembros del equipo rojo para evaluar los riesgos del modelo, y para un número selecto de creativos, como artistas visuales, diseñadores y cineastas, para recopilar comentarios sobre cómo mejorar el modelo para satisfacer sus necesidades. Además: probé la nueva función de generación de imágenes con IA de Microsoft Copilot y resuelve un problema real. Parece que estamos entrando en una nueva era en la que las empresas cambiarán su enfoque hacia la investigación, el desarrollo y el lanzamiento de generadores de texto a video con IA capaces. Hace apenas dos semanas, Google Research publicó un artículo de investigación sobre Lumiere, un modelo de difusión de texto a video que también puede crear videos altamente realistas.

Source link