Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder en la industria. Más información Nvidia ha lanzado un potente modelo de inteligencia artificial de código abierto que compite con sistemas propietarios de líderes de la industria como OpenAI y Google. La nueva familia NVLM 1.0 de grandes modelos de lenguaje multimodal de la compañía, liderada por el NVLM-D-72B de 72 mil millones de parámetros, demuestra un rendimiento excepcional en tareas de visión y lenguaje, al mismo tiempo que mejora las capacidades de solo texto. “Presentamos NVLM 1.0, una familia de modelos de lenguaje grande multimodales de vanguardia que logran resultados de última generación en tareas de visión y lenguaje, rivalizando con los principales modelos propietarios (por ejemplo, GPT-4o) y modelos de acceso abierto. ”, explican los investigadores en su artículo. Al hacer que los pesos del modelo estén disponibles públicamente y prometer publicar el código de entrenamiento, Nvidia rompe con la tendencia de mantener cerrados los sistemas avanzados de IA. Esta decisión otorga a investigadores y desarrolladores un acceso sin precedentes a tecnología de punta. Resultados comparativos que comparan el modelo NVLM-D de NVIDIA con gigantes de la IA como GPT-4, Claude 3.5 y Llama 3-V, que muestran el rendimiento competitivo de NVLM-D en diversas tareas visuales y de lenguaje. (Crédito: arxiv.org) NVLM-D-72B: Un intérprete versátil en tareas visuales y textuales El modelo NVLM-D-72B muestra una adaptabilidad impresionante en el procesamiento de entradas visuales y textuales complejas. Los investigadores proporcionaron ejemplos que resaltan la capacidad del modelo para interpretar memes, analizar imágenes y resolver problemas matemáticos paso a paso. En particular, NVLM-D-72B mejora su rendimiento en tareas de solo texto después del entrenamiento multimodal. Si bien muchos modelos similares experimentan una disminución en el rendimiento del texto, NVLM-D-72B aumentó su precisión en un promedio de 4,3 puntos en los puntos de referencia de texto clave. «Nuestro NVLM-D-1.0-72B demuestra mejoras significativas con respecto a su columna vertebral de texto en pruebas comparativas de codificación y matemáticas de solo texto», señalan los investigadores, enfatizando una ventaja clave de su enfoque. El nuevo modelo de IA de NVIDIA analiza un meme comparando resúmenes académicos con artículos completos, demostrando su capacidad para interpretar el humor visual y conceptos académicos. (Crédito: arxiv.org) Los investigadores de IA responden a la iniciativa de código abierto de Nvidia. La comunidad de IA ha reaccionado positivamente al lanzamiento. Un investigador de IA comentó en las redes sociales: “¡Guau! ¿Nvidia acaba de publicar un modelo 72B que está ~ a la par con llama 3.1 405B en evaluaciones matemáticas y de codificación y también tiene visión? La decisión de Nvidia de hacer disponible abiertamente un modelo tan poderoso podría acelerar la investigación y el desarrollo de la IA en todo el campo. Al brindar acceso a un modelo que rivaliza con los sistemas propietarios de empresas tecnológicas bien financiadas, Nvidia puede permitir que organizaciones más pequeñas e investigadores independientes contribuyan de manera más significativa a los avances de la IA. El proyecto NVLM también presenta diseños arquitectónicos innovadores, incluido un enfoque híbrido que combina diferentes técnicas de procesamiento multimodal. Este desarrollo podría dar forma a la dirección de futuras investigaciones en este campo. NVLM 1.0: un nuevo capítulo en el desarrollo de la IA de código abierto El lanzamiento de NVLM 1.0 por parte de Nvidia marca un momento crucial en el desarrollo de la IA. Al abrir un modelo que rivaliza con los gigantes propietarios, Nvidia no sólo comparte código, sino que desafía la estructura misma de la industria de la IA. Esta medida podría provocar una reacción en cadena. Otros líderes tecnológicos pueden sentir presión para abrir sus investigaciones, lo que podría acelerar el progreso de la IA en todos los ámbitos. También nivela el campo de juego, permitiendo que equipos e investigadores más pequeños innoven con herramientas que alguna vez estuvieron reservadas para los gigantes tecnológicos. Sin embargo, el lanzamiento de NVLM 1.0 no está exento de riesgos. A medida que la IA poderosa se vuelva más accesible, es probable que aumenten las preocupaciones sobre el uso indebido y las implicaciones éticas. La comunidad de IA ahora enfrenta la compleja tarea de promover la innovación y al mismo tiempo establecer barreras para un uso responsable. La decisión de Nvidia también plantea dudas sobre el futuro de los modelos de negocio de IA. Si los modelos de última generación están disponibles gratuitamente, es posible que las empresas deban repensar cómo crean valor y mantienen ventajas competitivas en la IA. El verdadero impacto de NVLM 1.0 se manifestará en los próximos meses y años. Podría marcar el comienzo de una era de colaboración e innovación sin precedentes en IA. O podría obligar a tener en cuenta las consecuencias no deseadas de la IA avanzada y ampliamente disponible. Una cosa es segura: Nvidia ha disparado un tiro al arco de la industria de la inteligencia artificial. La pregunta ahora no es si el panorama cambiará, sino cuán dramáticamente y quién se adaptará lo suficientemente rápido para prosperar en este nuevo mundo de IA abierta. VB Daily ¡Manténgase informado! Reciba las últimas noticias en su bandeja de entrada diariamente. Al suscribirse, acepta los Términos de servicio de VentureBeat. Gracias por suscribirte. Consulte más boletines de VB aquí. Se produjo un error.