Sólo una semana después de lanzar su último modelo de inteligencia artificial generativa (genAI), Google presentó el jueves el sucesor de ese modelo, Gemini 1.5. La compañía se jacta de que la nueva versión supera a la versión anterior en casi todos los frentes. Gemini 1.5 es un modelo de IA multimodal que ahora está listo para las primeras pruebas. A diferencia del popular ChatGPT de OpenAI, dijo Google, los usuarios pueden introducir en su motor de consultas una cantidad mucho mayor de información para obtener respuestas más precisas. (OpenAI también anunció hoy un nuevo modelo de IA: Sora, un modelo de texto a video que puede generar complejos escenas de video con múltiples personajes, tipos específicos de movimiento y detalles precisos del sujeto y el fondo «mientras mantiene la calidad visual y el cumplimiento de las indicaciones del usuario». El modelo comprende no solo lo que el usuario solicitó en la indicación, sino también cómo esos las cosas existen en el mundo físico.) OpenAI Una escena de película generada por Sora. Los modelos Gemini de Google son los únicos modelos de lenguaje grande (LLM) multimodales y nativos de la industria; Tanto Gemini 1.0 como Gemini 1.5 pueden ingerir y generar contenido a través de texto, imágenes, audio, video y mensajes de código. Por ejemplo, las indicaciones del usuario en el modelo Gemini pueden tener la forma de imágenes JPEG, WEBP, HEIC o HEIF». Tanto OpenAI como Gemini reconocen la importancia de la multimodalidad y la abordan de diferentes maneras. No olvidemos que Sora «Es un mero modelo de vista previa/disponibilidad limitada y no algo que estará disponible de forma generalizada en el corto plazo», dijo Arun Chandrasekaran, distinguido vicepresidente analista de Gartner. Sora de OpenAI competirá con empresas emergentes como el modelo de texto a video. fabricante Runway AI, dijo. Gemini 1.0, anunciado por primera vez en diciembre de 2023, se lanzó la semana pasada. Con esa medida, Google dijo que había reconstruido y renombrado su chatbot Bard. Gemini tiene la flexibilidad de ejecutarse en todo, desde centros de datos hasta dispositivos móviles. Aunque ChatGPT 4, el último LLM de OpenAI, es multimodal, sólo ofrece un par de modalidades, como imágenes y texto o texto a vídeo, según Chirag Dekate, analista vicepresidente de Gartner. “Google está aprovechando su papel de líder como Proveedor de nube de IA. Ya no quieren ponerse al día. Otros lo son”, dijo Dekate. «Si eres un usuario registrado de Google Cloud, hoy puedes acceder a más de 132 modelos. Su variedad de modelos es una locura». «Los medios y el entretenimiento serán la industria vertical que puede ser la primera en adoptar modelos como estos, mientras que las empresas funciones como marketing y diseño dentro de empresas y empresas de tecnología también podrían ser las primeras en adoptar», dijo Chandrasekaran. Actualmente, OpenAI está trabajando en su GPT 5 de próxima generación; es probable que ese modelo también sea multimodal. Sin embargo, Dekate argumentó que GPT 5 constará de muchos modelos más pequeños improvisados ​​y no será multimodal de forma nativa, lo que probablemente resultará en una arquitectura menos eficiente. El primer modelo Gemini 1.5 que Google ha ofrecido para pruebas iniciales es el Gemini 1.5 Pro, que la compañía describió como «un modelo multimodal de tamaño mediano optimizado para escalar en una amplia gama de tareas». El modelo funciona a un nivel similar al Gemini 1.0 Ultra, su modelo más grande hasta la fecha, pero requiere muchos menos ciclos de GPU, dijo la compañía. Gemin 1.5 Pro también introduce una característica experimental en comprensión de contexto largo, lo que significa que permite a los desarrolladores solicitar al motor hasta 1 millón de tokens de contexto. Los desarrolladores pueden registrarse para obtener una vista previa privada de Gemini 1.5 Pro en Google AI Studio. Google AI Studio es la forma más rápida de construir con modelos Gemini y permite a los desarrolladores integrar la API de Gemini en sus aplicaciones. Está disponible en 38 idiomas en más de 180 países y territorios. Google Una comparación entre Gemini 1.5 y otros modelos de IA en términos de ventanas de contexto de token. El modelo Gemini de Google fue construido desde cero para ser multimodal y no consta de múltiples partes superpuestas como lo son los modelos de la competencia. Google llama a Gemini 1.5 “un modelo multimodal de tamaño mediano” optimizado para escalar en una amplia gama de tareas; si bien funciona a un nivel similar al 1.0 Ultra, lo hace aplicando muchos modelos más pequeños bajo una arquitectura para tareas específicas. Google logra el mismo rendimiento en un LLM más pequeño utilizando un marco cada vez más popular conocido como «Mezcla de expertos», o Ministerio de Educación. Basado en dos elementos arquitectónicos clave, MoE coloca en capas una combinación de neuroredes más pequeñas y ejecuta una serie de enrutadores de neuroredes que impulsan dinámicamente los resultados de las consultas. “Dependiendo del tipo de entrada dada, los modelos MoE aprenden a activar selectivamente solo las más pequeñas. rutas expertas relevantes en su red neuronal. Esta especialización mejora enormemente la eficiencia del modelo”, dijo Demis Hassabis, director ejecutivo de Google DeepMind, en una publicación de blog. «Google ha sido uno de los primeros en adoptar y pionero de la técnica MoE para el aprendizaje profundo a través de investigaciones como Sparsely-Gated MoE, GShard-Transformer, Switch-Transformer, M4 y más». La arquitectura MoE permite al usuario ingresar una enorme cantidad de información, pero permite que esa entrada se procese con muchos menos ciclos de cómputo en la etapa de inferencia. Luego puede ofrecer lo que Dekate llamó «tener respuestas hiperprecisas». «Sus competidores están luchando por mantenerse al día, pero sus competidores no tienen DeepMind o GPU». [capacity] Google tiene que ofrecer resultados”, dijo Dekate. Con la nueva función de comprensión de contexto largo, Gemini 1.5 tiene una ventana de contexto de 1,5 millones de tokens, lo que significa que puede permitir a un usuario escribir una sola oración o cargar varios libros con información. la interfaz del chatbot y reciba una respuesta específica y precisa. En comparación, Gemini 1.0 tenía una ventana de contexto de 32.000 tokens. Los LLM rivales suelen estar limitados a unas 10.000 ventanas de contexto de tokens, con la expectativa de GPT 4, que puede aceptar hasta 125.000 tokens. De forma nativa, Gemini 1.5 Pro viene con una ventana de contexto estándar de 128.000. ventana de contexto del token. Google, sin embargo, permite que un grupo limitado de desarrolladores y clientes empresariales lo prueben en una vista previa privada con una ventana contextual de hasta 1 millón de tokens a través de AI Studio y Vertex AI; crecerá a partir de ahí, dijo Google. «A medida que implementamos la ventana de contexto de un millón de tokens, estamos trabajando activamente en optimizaciones para mejorar la latencia, reducir los requisitos computacionales y mejorar la experiencia del usuario», dijo Hassabis. Copyright © 2024 IDG Communications, Inc.

Source link