Suscríbase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder en la industria. Más información Investigadores de Meta y la Universidad de Oxford han desarrollado un poderoso modelo de IA capaz de generar objetos 3D de alta calidad a partir de imágenes individuales o descripciones de texto. El sistema, llamado VFusion3D, es un gran paso hacia la IA 3D escalable que podría transformar campos como la realidad virtual, los juegos y el diseño digital. Junlin Han, Filippos Kokkinos y Philip Torr lideraron el equipo de investigación para abordar un desafío de larga data en IA: la escasez de datos de entrenamiento 3D en comparación con las grandes cantidades de imágenes 2D y texto disponibles en línea. Su novedoso enfoque aprovecha los modelos de IA de video entrenados previamente para generar datos 3D sintéticos, lo que les permite entrenar un sistema de generación 3D más poderoso. Una comparación lado a lado que muestra las capacidades de VFusion3D. A la izquierda, una imagen 2D de un cerdo de dibujos animados con una mochila. A la derecha, el modelo 3D generado por IA, que demuestra la capacidad del sistema para interpretar la profundidad, la textura y la forma a partir de una única imagen de entrada. Crédito: Meta/Universidad de Oxford Desbloquear la tercera dimensión: cómo VFusion3D cierra la brecha de datos «El principal obstáculo en el desarrollo de modelos generativos 3D básicos es la disponibilidad limitada de datos 3D», explican los investigadores en su artículo. Para superarlo, afinaron un modelo de IA de vídeo existente para producir secuencias de vídeo de múltiples vistas, enseñándole esencialmente a imaginar objetos desde múltiples ángulos. Estos datos sintéticos se utilizaron luego para entrenar VFusion3D. Los resultados son realmente impresionantes. En las pruebas, los evaluadores humanos prefirieron las reconstrucciones 3D de VFusion3D más del 90% del tiempo en comparación con los sistemas de última generación anteriores. El modelo puede generar un activo 3D a partir de una única imagen en tan solo unos segundos. Un koala guerrero 2D (izquierda) transformado en un modelo 3D (derecha), mostrando el potencial de la IA en el diseño de personajes. Crédito: Meta/Universidad de Oxford De píxeles a polígonos: la promesa de una IA 3D escalable Quizás lo más emocionante es la escalabilidad de este enfoque. A medida que se desarrollen modelos de IA de video más potentes y haya más datos 3D disponibles para realizar ajustes, los investigadores esperan que las capacidades de VFusion3D sigan mejorando rápidamente. Este avance podría eventualmente acelerar la innovación en las industrias que dependen del contenido 3D. Los desarrolladores de juegos podrían usarlo para crear rápidamente prototipos de personajes y entornos. Los arquitectos y diseñadores de productos podrían visualizar rápidamente conceptos en 3D. Y las aplicaciones de VR/AR podrían volverse mucho más inmersivas con activos 3D generados por IA. Práctica con VFusion3D: un vistazo al futuro de la generación 3D Para ver de primera mano las capacidades de VFusion3D, probé la demostración disponible públicamente (disponible en Hugging Face a través de Gradio). La interfaz es sencilla y permite a los usuarios cargar sus propias imágenes o elegir entre una selección de ejemplos precargados, incluidos personajes icónicos como Pikachu y Darth Vader, así como opciones más extravagantes como un cerdo con una mochila. Los ejemplos precargados funcionaron muy bien, generando modelos 3D y renderizando videos que capturaron la esencia y los detalles de las imágenes 2D originales con una precisión notable. Pero la verdadera prueba llegó cuando cargué una imagen personalizada: una imagen generada por IA de un cono de helado creado con Midjourney. Para mi sorpresa, VFusion3D manejó esta imagen sintética tan bien, si no mejor, que los ejemplos precargados. En cuestión de segundos, produjo un modelo 3D completamente realizado del cono de helado, completo con detalles de textura y la profundidad adecuada. Esta experiencia resalta el impacto potencial de VFusion3D en los flujos de trabajo creativos. Los diseñadores y artistas podrían potencialmente omitir el lento proceso de modelado 3D manual, y en su lugar usar el arte conceptual 2D generado por IA como trampolín para prototipos 3D instantáneos. Esto podría acelerar drásticamente el proceso de ideación e iteración en campos como el desarrollo de juegos, el diseño de productos y los efectos visuales. Además, la capacidad del sistema para manejar imágenes 2D generadas por IA sugiere un futuro en el que toda la creación de contenido 3D podría ser impulsada por IA, desde el concepto inicial hasta el activo 3D final. Esto podría democratizar la creación de contenido 3D, permitiendo a las personas y a los equipos pequeños producir activos 3D de alta calidad a una escala que antes solo era posible para grandes estudios con recursos significativos. Sin embargo, es importante señalar que, si bien los resultados son impresionantes, aún no son perfectos. Es posible que se pierdan o malinterpreten algunos detalles finos, y los objetos complejos o inusuales aún pueden plantear desafíos. Sin embargo, el potencial de esta tecnología para transformar las industrias creativas es claro, y es probable que veamos avances rápidos en este espacio en los próximos años. El camino por delante: desafíos y horizontes futuros A pesar de sus impresionantes capacidades, la tecnología no está exenta de limitaciones. Los investigadores señalan que el sistema a veces tiene dificultades con tipos de objetos específicos, como vehículos y texto. Sugieren que los desarrollos futuros en modelos de IA de video pueden ayudar a abordar estas deficiencias. Mientras la IA continúa transformando las industrias creativas, VFusion3D de Meta demuestra cómo los enfoques inteligentes para la generación de datos pueden abrir nuevas fronteras en el aprendizaje automático. Con un mayor refinamiento, esta tecnología podría poner poderosas herramientas de creación 3D en manos de diseñadores, desarrolladores y artistas de todo el mundo. El artículo de investigación que detalla VFusion3D ha sido aceptado en la Conferencia Europea sobre Visión por Computador (ECCV) 2024, y el código se ha puesto a disposición del público en GitHub, lo que permite que otros investigadores se basen en este trabajo. A medida que esta tecnología continúa evolucionando, promete redefinir los límites de lo que es posible en la creación de contenido 3D, transformando potencialmente las industrias y abriendo nuevos reinos de expresión creativa. VB Daily ¡Manténgase informado! Reciba las últimas noticias en su bandeja de entrada todos los días Al suscribirse, acepta los Términos de servicio de VentureBeat. Gracias por suscribirse. Consulte más boletines de VB aquí. Se produjo un error.