El Instituto Allen para IA (Ai2) presentó hoy Molmo, una familia de código abierto de modelos de IA multimodales de última generación que superan a los principales rivales propietarios, incluidos GPT-4o de OpenAI, Claude 3.5 Sonnet de Anthropic y Gemini 1.5 de Google en varios puntos de referencia de terceros. Por lo tanto, los modelos pueden aceptar y analizar imágenes cargadas por los usuarios, de manera similar a los principales modelos de base propietarios. Sin embargo, Ai2 también señaló en una publicación en X que Molmo usa «1000 veces menos datos» que los rivales propietarios, gracias a algunas nuevas técnicas de entrenamiento inteligentes que se describen con mayor detalle a continuación y en un informe técnico publicado por la empresa fundada por Paul Allen y dirigida por Ali Farhadi. Ai2 afirma que el lanzamiento subraya su compromiso con la investigación abierta al ofrecer modelos de alto rendimiento, completos con ponderaciones y datos abiertos, a la comunidad en general y, por supuesto, a las empresas que buscan soluciones que puedan poseer, controlar y personalizar por completo. Esto llega poco después del lanzamiento por parte de Ai2 hace dos semanas de otro modelo abierto, OLMoE, que es una «mezcla de expertos» o una combinación de modelos más pequeños diseñados para lograr una mayor rentabilidad. Cerrando la brecha entre la IA abierta y la propietaria Molmo consta de cuatro modelos principales con diferentes tamaños de parámetros y capacidades: Molmo-72B (72 mil millones de parámetros o configuraciones: el modelo insignia, basado en el modelo de código abierto Qwen2-72B de Alibaba Cloud) Molmo-7B-D («modelo de demostración» basado en el modelo Qwen2-7B de Alibaba) Molmo-7B-O (basado en el modelo OLMo-7B de Ai2) MolmoE-1B (basado en el LLM de mezcla de expertos OLMoE-1B-7B, y que Ai2 dice «casi iguala el rendimiento de GPT-4V tanto en los puntos de referencia académicos como en las preferencias del usuario»). Estos modelos logran un alto rendimiento en una variedad de puntos de referencia de terceros, superando a muchas alternativas propietarias. Y todos están disponibles bajo licencias permisivas Apache 2.0, lo que permite prácticamente cualquier tipo de usos para investigación y comercialización (por ejemplo, nivel empresarial). Cabe destacar que Molmo-72B lidera el grupo en evaluaciones académicas, logrando la puntuación más alta en 11 puntos de referencia clave y ocupando el segundo lugar en preferencia de los usuarios, siguiendo de cerca a GPT-4o. Vaibhav Srivastav, un ingeniero defensor de desarrolladores de aprendizaje automático en la empresa de repositorio de código de IA Hugging Face, comentó sobre el lanzamiento en X, destacando que Molmo ofrece una alternativa formidable a los sistemas cerrados, estableciendo un nuevo estándar para la IA multimodal abierta. Molmo por @allen_ai: modelo de lenguaje multimodal (Vision) SoTA de código abierto, que supera a Claude 3.5 Sonnet, GPT4V y es comparable a GPT4o. Lanzan cuatro puntos de control del modelo: 1. MolmoE-1B, una mezcla de modelo de expertos con 1B (activo) 7B (total) 2. Molmo-7B-O, el modelo 7B más abierto3.… pic.twitter.com/9hpARh0GYT— Vaibhav (VB) Srivastav (@reach_vb) 25 de septiembre de 2024 Además, el investigador de robótica de Google DeepMind, Ted Xiao, recurrió a X para elogiar la inclusión de datos de apuntamiento en Molmo, que considera un cambio radical para la base visual en robótica. Molmo es un lanzamiento de modelo de base multimodal muy emocionante, especialmente para robótica. El énfasis en los datos de apuntamiento lo convierte en el primer VLM abierto optimizado para la base visual, ¡y puede verlo claramente con un rendimiento impresionante en RealworldQA o la percepción robótica OOD! https://t.co/F2xRCzogcg pic.twitter.com/VHtu9hT2r9— Ted Xiao (@xiao_ted) 25 de septiembre de 2024 Esta capacidad le permite a Molmo brindar explicaciones visuales e interactuar de manera más efectiva con entornos físicos, una característica que actualmente falta en la mayoría de los demás modelos multimodales. Los modelos no solo son de alto rendimiento, sino que también son completamente abiertos, lo que permite a los investigadores y desarrolladores acceder y desarrollar tecnología de vanguardia. Arquitectura avanzada del modelo y enfoque de entrenamiento La arquitectura de Molmo está diseñada para maximizar la eficiencia y el rendimiento. Todos los modelos utilizan el modelo CLIP ViT-L/14 336px de OpenAI como codificador de visión, que procesa imágenes multiescala y multicorte en tokens de visión. Estos tokens luego se proyectan en el espacio de entrada del modelo de lenguaje a través de un conector de perceptrón multicapa (MLP) y se agrupan para la reducción de la dimensionalidad. El componente del modelo de lenguaje es un Transformer solo decodificador, con opciones que van desde la serie OLMo hasta las series Qwen2 y Mistral, cada una ofreciendo diferentes capacidades y niveles de apertura. La estrategia de entrenamiento para Molmo involucra dos etapas clave: Preentrenamiento multimodal: Durante esta etapa, los modelos se entrenan para generar subtítulos utilizando descripciones de imágenes detalladas recién recopiladas proporcionadas por anotadores humanos. Este conjunto de datos de alta calidad, llamado PixMo, es un factor crítico en el sólido desempeño de Molmo. Ajuste fino supervisado: los modelos se ajustan luego en una mezcla diversa de conjuntos de datos, que incluyen puntos de referencia académicos estándar y conjuntos de datos recién creados que permiten que los modelos manejen tareas complejas del mundo real como lectura de documentos, razonamiento visual e incluso señalar. A diferencia de muchos modelos contemporáneos, Molmo no depende del aprendizaje de refuerzo a partir de la retroalimentación humana (RLHF), sino que se centra en un proceso de entrenamiento meticulosamente ajustado que actualiza todos los parámetros del modelo en función de su estado previo al entrenamiento. Rendimiento superior en puntos de referencia clave Los modelos de Molmo han mostrado resultados impresionantes en múltiples puntos de referencia, particularmente en comparación con los modelos propietarios. Por ejemplo, Molmo-72B obtiene una puntuación de 96,3 en DocVQA y 85,5 en TextVQA, superando tanto a Gemini 1.5 Pro como a Claude 3.5 Sonnet en estas categorías. Además, supera a GPT-4o en AI2D (el propio punto de referencia de Ai2, abreviatura de «A Diagram Is Worth A Dozen Images», un conjunto de datos de más de 5000 diagramas de ciencias de la escuela primaria y más de 150 000 anotaciones enriquecidas). Los modelos también se destacan en tareas de puesta a tierra visual, y Molmo-72B logra el máximo rendimiento en RealWorldQA, lo que lo hace especialmente prometedor para aplicaciones en robótica y razonamiento multimodal complejo. Acceso abierto y versiones futuras Ai2 ha hecho que estos modelos y conjuntos de datos sean accesibles en su espacio Hugging Face, con total compatibilidad con marcos de IA populares como Transformers. Este acceso abierto es parte de la visión más amplia de Ai2 de fomentar la innovación y la colaboración en la comunidad de IA. En los próximos meses, Ai2 planea lanzar modelos adicionales, código de entrenamiento y una versión ampliada de su informe técnico, enriqueciendo aún más los recursos disponibles para los investigadores. Para aquellos interesados ​​en explorar las capacidades de Molmo, una demostración pública y varios puntos de control de modelos están disponibles ahora a través de la página oficial de Molmo. VB Daily ¡Manténgase informado! Recibe las últimas noticias en tu bandeja de entrada todos los días Al suscribirte, aceptas los Términos de servicio de VentureBeat. Gracias por suscribirte. Consulta más boletines de VB aquí. Se ha producido un error.