Hace solo poco más de un año que comencé a escuchar sobre Stable Diffusion y Midjourney y la capacidad de crear imágenes a partir de la nada. Simplemente junte unas pocas palabras y un modelo de IA generativa ubicado en un servidor transformará esas palabras escritas en una imagen gráfica. Magia. Todo ha progresado tan rápido y tan frenéticamente desde entonces. Y de repente, estaba parado en medio del stand de MediaTek en el MWC, mirando un teléfono Android que ejecutaba el chipset Dimensity 9300 y generaba imágenes de IA sobre la marcha. El modelo generó y mejoró la imagen con cada letra que escribí, en tiempo real. Cada letra y palabra que escribí activó el modelo de Difusión Estable y cambió la imagen para que se ajustara a mi descripción con mayor precisión. En tiempo real. Cero retrasos, cero esperas, cero servidores. Todo es local y fuera de línea. Me quedé estupefacto. El año pasado, Qualcomm estuvo feliz de mostrar (también en el MWC) un modelo de Difusión Estable que podía generar una imagen de IA localmente en menos de 15 segundos. Nos pareció impresionante entonces, especialmente en comparación con la generación de Midjourney, que consume más tiempo y exige más servidores. Pero ahora que he visto la generación en tiempo real en acción, esos 15 segundos parecen un lagfest. ¡Oh, qué diferencia hacen 12 meses! Ahora que he visto la generación de IA en tiempo real en acción, cualquier otra cosa parece un lagfest. El Dimensity 9300 fue construido desde cero para soportar más capacidades de IA en el dispositivo, por lo que esa no fue la única demostración que MediaTek estaba promocionando. Sin embargo, los demás no fueron tan impresionantes ni llamativos: resúmenes locales de IA, expansión de fotografías y manipulación de fotografías tipo Magic Eraser. La mayoría de esas características se han vuelto comunes ahora, y Google y Samsung se jactan de ellas en su software Pixel y en su traje Galaxy AI, respectivamente. Robert Triggs / Android Authority Luego había un modelo de generación de video local, que crea una imagen y la anima como una serie de GIF para hacer un vídeo con ellos. Lo intenté un par de veces. Tomó más de 50 segundos y no siempre fue preciso, por lo que puedes imaginar que no me llamó tanto la atención como el modelo de imagen en tiempo real. MediaTek también mostró un creador de avatares con IA en tiempo real que usa la cámara para Capture imágenes en vivo de una persona y anímelas con múltiples estilos. La animación estaba uno o dos segundos por detrás de sus movimientos reales, por lo que no tenía tanto retraso, pero la imagen generada me recordó los primeros días de Dall-E. Nuevamente, esto se ejecutó localmente y sin conexión, lo que explica estos problemas. Sigue siendo una tecnología impresionante, por supuesto, pero no se sentía “allí” de la misma manera que el modelo de generación de imágenes en tiempo real. Como ya puedes ver, realmente me gustó esa primera demostración. Parecía como si la tecnología finalmente hubiera llegado. Y el hecho de que puedas hacerlo localmente, sin los costos adicionales de los servidores y las preocupaciones de privacidad de enviar solicitudes en línea, es lo que lo hace más práctico para mí. Comentarios

Source link