En junio, Runway estrenó un nuevo modelo de síntesis de texto a video llamado Gen-3 Alpha. Convierte descripciones escritas llamadas «indicaciones» en videoclips HD sin sonido. Desde entonces, tuvimos la oportunidad de usarlo y queríamos compartir nuestros resultados. Nuestras pruebas muestran que la indicación cuidadosa no es tan importante como la coincidencia de conceptos que probablemente se encuentren en los datos de entrenamiento, y que lograr resultados divertidos probablemente requiera muchas generaciones y una selección selectiva. Un tema persistente de todos los modelos de IA generativa que hemos visto desde 2022 es que pueden ser excelentes para mezclar conceptos que se encuentran en los datos de entrenamiento, pero generalmente son muy malos para generalizar (aplicar el «conocimiento» aprendido a nuevas situaciones en las que el modelo no ha sido entrenado explícitamente). Eso significa que pueden sobresalir en la novedad estilística y temática, pero tienen dificultades en la novedad estructural fundamental que va más allá de los datos de entrenamiento. ¿Qué significa todo eso? En el caso de Runway Gen-3, la falta de generalización significa que podría pedir un velero en una taza de café arremolinado, y siempre que los datos de entrenamiento de Gen-3 incluyan ejemplos de video de veleros y café arremolinado, esa es una combinación novedosa «fácil» para que el modelo haga de manera bastante convincente. Pero si pide un gato bebiendo una lata de cerveza (en un comercial de cerveza), generalmente fallará porque no es probable que haya muchos videos de gatos fotorrealistas bebiendo bebidas humanas en los datos de entrenamiento. En cambio, el modelo extraerá lo que ha aprendido sobre videos de gatos y videos de comerciales de cerveza y los combinará. El resultado es un gato con manos humanas bebiendo una cerveza. Algunas indicaciones básicas Durante la fase de prueba alfa de Gen-3, nos registramos en el plan estándar de Runway, que proporciona 625 créditos por $15 al mes, más algunos créditos de prueba gratuitos adicionales. Cada generación cuesta 10 créditos por un segundo de video, y creamos videos de 10 segundos por 100 créditos cada uno. Así que la cantidad de generaciones que podíamos hacer era limitada. Primero probamos algunos estándares de nuestras pruebas de síntesis de imágenes en el pasado, como gatos bebiendo cerveza, bárbaros con televisores CRT y reinas del universo. También nos sumergimos en la tradición de Ars Technica con el «tiburón lunar», nuestra mascota. Verás todos esos resultados y más a continuación. Teníamos tan pocos créditos que no podíamos permitirnos volver a ejecutarlos y seleccionar los que más nos interesaban, así que lo que ves para cada mensaje es exactamente la generación única que recibimos de Runway. «Una persona muy inteligente leyendo «Ars Technica» en su computadora cuando la pantalla explota», «un comercial de una nueva hamburguesa con queso en llamas de McDonald’s», «El tiburón lunar saltando de la pantalla de una computadora y atacando a una persona», «Un gato en un automóvil bebiendo una lata de cerveza, un comercial de cerveza», «Will Smith comiendo espaguetis» activó un filtro, así que probamos con «un hombre negro comiendo espaguetis». (Ver hasta el final.) «Animales humanoides robóticos con disfraces de vodevil deambulan por las calles recolectando dinero de protección en fichas» «Un jugador de baloncesto en un vagón de tren de pasajeros embrujado con una cancha de baloncesto, y está jugando contra un equipo de fantasmas» «Una manada de un millón de gatos corriendo en una ladera, vista aérea» «Imágenes de un videojuego de un dinámico juego de plataformas en tercera persona en 3D de los años 90 protagonizado por un niño tiburón antropomórfico»