El nuevo modelo de IA convierte las fotos en mundos 3D explorables, con advertencias

La capacitación con la tubería de datos automatizada Voyager se basa en el anterior HunyuanWorld 1.0 de Tencent, lanzado en julio. Voyager también es parte del ecosistema «Hunyuan» más amplio de Tencent, que incluye el modelo Hunyuan3D-2 para la generación de texto a 3D y el Hunyuanvideo previamente cubierto para la síntesis de video. Para entrenar a Voyager, los investigadores desarrollaron un software que analiza automáticamente los videos existentes para procesar los movimientos de la cámara y calcular la profundidad para cada cuadro, lo que elimina la necesidad de que los humanos etiqueten manualmente miles de horas de metraje. El sistema procesó más de 100,000 videoclips de grabaciones del mundo real y de los renders de motor Unreal antes mencionado. Un diagrama de la tubería de creación mundial Voyager. Crédito: Tencent El modelo exige una potencia informática grave para ejecutarse, lo que requiere al menos 60 GB de memoria GPU para una resolución de 540p, aunque Tencent recomienda 80GB para obtener mejores resultados. Tencent publicó los pesos del modelo en la cara de abrazo e incluyó un código que funciona con configuraciones individuales y múltiples de GPU. El modelo viene con restricciones de licencia notables. Al igual que otros modelos Hunyuan de Tencent, la licencia prohíbe el uso en la Unión Europea, el Reino Unido y Corea del Sur. Además, las implementaciones comerciales que atienden a más de 100 millones de usuarios activos mensuales requieren licencias separadas de Tencent. Según los informes, en el punto de referencia de WorldScore desarrollado por los investigadores de la Universidad de Stanford, Voyager logró el puntaje general más alto de 77.62, en comparación con 72.69 para WonderWorld y 62.15 para COGVIDEOX-I2V. Según los informes, el modelo se destacó en el control de objetos (66.92), la consistencia del estilo (84.89) y la calidad subjetiva (71.09), aunque colocó en segundo lugar en el control de la cámara (85.95) detrás del 92.98 de Wonderworld. WorldScore evalúa los enfoques de generación mundial en los criterios múltiples, incluida la consistencia 3D y la alineación de contenido. Si bien estos resultados de referencia autoinformados parecen prometedores, la implementación más amplia aún enfrenta desafíos debido al músculo computacional involucrado. Para los desarrolladores que necesitan un procesamiento más rápido, el sistema admite una inferencia paralela en múltiples GPU utilizando el marco XDIT. Ejecutar en ocho GPU ofrece velocidades de procesamiento 6.69 veces más rápido que las configuraciones de una sola GPU. Dada la potencia de procesamiento requerida y las limitaciones para generar «mundos» largos y coherentes, puede pasar un tiempo antes de que veamos experiencias interactivas en tiempo real utilizando una técnica similar. Pero como hemos visto hasta ahora con experimentos como el genio de Google, potencialmente estamos presenciando pasos muy tempranos en una nueva forma de arte interactiva y generativa.