El director ejecutivo de Google DeepMind, Demis Hassabis, ha presentado la próxima versión del modelo de lenguaje grande (LLM) Gemini de Google. La nueva versión del LLM, anteriormente conocido como Bard, es el último intento de Google de desviar el foco de atención de la inteligencia artificial (IA) avanzada del ChatGPT de su rival OpenAI hacia la nueva tecnología que ha desarrollado. En un blog que analiza la versión Gemini 1.5, Hassabis habló de un «rendimiento dramáticamente mejorado» y dijo que representa un cambio radical en el enfoque que adopta Google en el desarrollo de la IA. La versión Pro, que ahora está disponible como vista previa para desarrolladores, está optimizada para una «comprensión de contexto a largo plazo», según Hassabis. La publicación de su blog incluía un video que mostraba cómo Gemini 1.5 se las arregló para resumir una transcripción de 402 páginas de la misión de alunizaje del Apolo 11. Otro vídeo muestra el análisis de una película de Buster Keaton de 44 minutos de duración, donde se le pide a Gemini 1.5 que identifique una escena en la que el personaje principal toma un trozo de papel. En un tweet publicado en X, un ingeniero de Google explicó cómo se enviaron tres programas JavaScript, con un total de más de 100.000 líneas de código, como entradas a Gemini 1.5. «Cuando le pedimos a Gemini que encontrara los tres ejemplos principales dentro del código base para ayudarnos a aprender una habilidad específica, analizó cientos de ejemplos posibles y regresó con opciones súper relevantes», dijeron. Usando solo una captura de pantalla de una de las demostraciones en el código base, la prueba mostró que Gemini pudo encontrar la demostración correcta y luego explicar cómo modificar el código para lograr un cambio específico en la imagen. En otro ejemplo, se utilizó Gemini para localizar una pieza específica de animación y luego explicar qué código se utiliza para controlarla. El ingeniero dijo que Gemini 1.5 pudo mostrar exactamente cómo personalizar este código para realizar un ajuste específico a la animación. Cuando se les pidió que cambiaran el texto y el estilo en un ejemplo de código, afirmaron que Gemini 1.5 pudo identificar las líneas exactas de código para cambiar y mostró a los desarrolladores cómo cambiarlas. También dio una explicación sobre lo que se había hecho y por qué. En otro tweet, Jeff Dean, científico jefe de Google DeepMind, habló de cómo Gemini 1.5 pudo tomar un idioma que nunca antes había visto, el Kalamang, hablado por la gente de Nueva Guinea Occidental, y aprender a traducirlo al inglés. El modelo se entrenó utilizando un libro de 573 páginas, Gramática de Kalamang de Eline Visser, y una lista de palabras bilingüe. Según una investigación cuantitativa, dijo que Gemini 1.5 obtuvo una puntuación de 4,36 sobre 6, en comparación con un humano que aprende el idioma Kalamang, que obtuvo una puntuación de 5,52. Hassabis dijo que Gemini 1.5 utiliza una nueva arquitectura de Mezcla de Expertos (MoE). Dependiendo del tipo de entrada dada, dijo, los modelos MoE aprenden a activar selectivamente sólo las vías expertas más relevantes en su red neuronal. «Esta especialización mejora enormemente la eficiencia del modelo», afirmó Hassabis.

Source link