El video scraping es sólo uno de los muchos trucos nuevos posibles cuando los últimos modelos de lenguajes grandes (LLM), como Gemini y GPT-4o de Google, son en realidad modelos “multimodales”, que permiten la entrada de audio, video, imágenes y texto. Estos modelos traducen cualquier entrada multimedia en tokens (fragmentos de datos), que utilizan para hacer predicciones sobre qué tokens deberían ser los siguientes en una secuencia. Un término como “modelo de predicción de tokens” (TPM) podría ser más preciso que “LLM” hoy en día para modelos de IA con entradas y salidas multimodales, pero un término alternativo generalizado aún no ha despegado. Pero no importa cómo lo llames, tener un modelo de IA que pueda recibir entradas de video tiene implicaciones interesantes, tanto buenas como potencialmente malas. Rompiendo las barreras de entrada Willison está lejos de ser la primera persona en introducir videos en modelos de IA para lograr resultados interesantes (más sobre esto a continuación, y aquí hay un artículo de 2015 que usa el término “video scraping”), pero tan pronto como Gemini lanzó su video capacidad de entrada, comenzó a experimentar con ella en serio. En febrero, Willison demostró otra de las primeras aplicaciones de video scraping con IA en su blog, donde tomó un video de siete segundos de los libros en sus estanterías, luego hizo que Gemini 1.5 Pro extrajera todos los títulos de libros que vio en el video y los colocara. en una lista estructurada u organizada. Para Willison es importante convertir datos no estructurados en datos estructurados, porque también es periodista de datos. Willison ha creado herramientas para periodistas de datos en el pasado, como el proyecto Datasette, que permite a cualquiera publicar datos como un sitio web interactivo. Para frustración de todo periodista de datos, algunas fuentes de datos resultan resistentes al scraping (captura de datos para su análisis) debido a cómo se formatean, almacenan o presentan los datos. En estos casos, Willison se deleita con el potencial del video scraping de IA porque supera estas barreras tradicionales a la extracción de datos.