¿Quieres ideas más inteligentes en tu bandeja de entrada? Regístrese en nuestros boletines semanales para obtener solo lo que importa a los líderes de IA, datos y seguridad empresariales. Suscríbete ahora los modelos pequeños están teniendo un momento. On the heels of the release of a new AI vision model small enough to fit on a smartwatch from MIT spinoff Liquid AI, and a model small enough to run on a smartphone from Google, Nvidia is joining the party today with a new small language model (SLM) of its own, Nemotron-Nano-9B-V2, which attained the highest performance in its class on selected benchmarks and comes with the ability for users to toggle on and off AI «Razonamiento», es decir, la autoevaluación antes de generar una respuesta. Si bien los 9 mil millones de parámetros son más grandes que algunos de los modelos pequeños de parámetros multimillonario que VentureBeat ha cubierto recientemente, NVIDIA señala que es una reducción significativa de su tamaño original de 12 mil millones de parámetros y está diseñado para caber en una sola GPU NVIDIA A10. Como Oleksii Kuchiaev, director del modelo de IA del modelo de IA, dijo en X en respuesta a una pregunta que le envié: «El 12B fue podado a 9B para adaptarse específicamente a A10, que es una opción de GPU popular para el despliegue. También es un modelo híbrido que le permite procesar un tamaño de lote más grande y ser hasta 6x más alto que modelos de transformador similar». «. Para el contexto, muchos LLM principales se encuentran en el rango de parámetros de más de 70 mil millones (los parámetros de recuperación se refieren a la configuración interna que rige el comportamiento del modelo, con un modelo más grande y más capaz, pero más intensivo de cómputo). AI Scaling alcanza sus límites de potencia de límites, el aumento de los costos de los tokens y los retrasos de inferencia están remodelando Enterprise AI. Únase a nuestro salón exclusivo para descubrir cómo son los mejores equipos: convertir la energía en una ventaja estratégica arquitectando una inferencia eficiente para las ganancias de rendimiento real que desbloquean el ROI competitivo con sistemas de IA sostenibles asegura su lugar para mantenerse a la vanguardia: https://bit.ly/4mwgngo, los modelos de múltiples idiomas, incluyendo alemán, español, francés, italiano, japonés y en descripciones extendidas, coreanos, portugueses, y chinos, y chinos, y chinos, y chinos, y chinos, y chinos, y chinos, y chinos, y chinos, y chinos, y chinos, y chinos. Es adecuado tanto para la siguiente instrucción como para la generación de códigos. Nemotron-Nano-9B-V2 y sus conjuntos de datos previos al entrenamiento disponibles en este momento en abrazar la cara y a través del catálogo de modelos de la compañía. Una fusión de arquitecturas Transformer y Mamba se basa en Nemotron-H, un conjunto de modelos híbridos de transformador mamba que forman la base para las últimas ofertas de la compañía. Si bien los LLM más populares son modelos puros de «transformador», que dependen completamente de las capas de atención, pueden volverse costosos en la memoria y calcular a medida que crecen las longitudes de secuencia. En cambio, los modelos Nemotron-H y otros que usan la arquitectura Mamba desarrollada por investigadores de la Universidad Carnegie Mellon y Princeton, también se tejen en modelos de espacios estatales selectivos (o SSM), que pueden manejar secuencias muy largas de información dentro y fuera mediante el mantenimiento del estado. Estas capas se escalan linealmente con la longitud de la secuencia y pueden procesar contextos mucho más tiempo que la autoatencia estándar sin la misma memoria y calcular la sobrecarga. Un transformador de mamba híbrido reduce esos costos al sustituir la mayor parte de la atención con capas espaciales de estado lineal, logrando un rendimiento de hasta 2–3 × mayor en contextos largos con precisión comparable. Otros laboratorios de IA más allá de Nvidia como AI2 también han lanzado modelos basados en la arquitectura Mamba. Alternar/de razonamiento utilizando el lenguaje Nemotron-Nano-9B-V2 se posiciona como un modelo de chat y razonamiento unificado y solo de texto entrenado desde cero. El sistema predeterminado es generar un rastro de razonamiento antes de proporcionar una respuesta final, aunque los usuarios pueden alternar este comportamiento a través de tokens de control simples como /think o /no_think. El modelo también introduce la gestión de «presupuesto de pensamiento» en tiempo de ejecución, que permite a los desarrolladores limitar el número de tokens dedicados al razonamiento interno antes de que el modelo complete una respuesta. Este mecanismo tiene como objetivo equilibrar la precisión con la latencia, particularmente en aplicaciones como la atención al cliente o los agentes autónomos. Los puntos de referencia cuentan que los resultados prometedores de la evaluación de la historia destacan la precisión competitiva contra otros modelos abiertos a pequeña escala. Probado en modo «Razonamiento en» utilizando la suite Nemo-Skills, Nemotron-Nano-9B-V2 alcanza el 72.1 por ciento en AIME25, 97.8 por ciento en Math500, 64.0 por ciento en GPQA y 71.1 por ciento en LIVecodeBench. Los puntajes de la instrucción siguiente y los puntos de referencia de contexto largo también se informan: 90.3 por ciento en Ifeval, 78.9 por ciento en la prueba de Ruler 128K y ganancias más pequeñas pero medibles en BFCL V3 y el punto de referencia HLE. En todos los ámbitos, Nano-9B-V2 muestra una mayor precisión que QWEN3-8B, un punto de comparación común. NVIDIA ilustra estos resultados con curvas de precisión versus presupuesto que muestran cómo aumenta el rendimiento a medida que aumenta la asignación de token para el razonamiento. La compañía sugiere que un control presupuestario cuidadoso puede ayudar a los desarrolladores a optimizar la calidad y la latencia en los casos de uso de producción. Entrenado en conjuntos de datos sintéticos tanto el modelo Nano como la familia Nemotron-H dependen de una mezcla de datos curados, de origen web y de entrenamiento sintético. Los corpus incluyen texto general, código, matemáticas, ciencias, documentos legales y financieros, así como conjuntos de datos de preguntas de respuesta al estilo de alineación. Nvidia confirma el uso de trazas de razonamiento sintéticas generadas por otros modelos grandes para fortalecer el rendimiento en puntos de referencia complejos. Licencias y uso comercial El modelo Nano-9B-V2 se publica bajo el Acuerdo de Licencia de Modelo Abierto de NVIDIA, actualizado por última vez en junio de 2025. La licencia está diseñada para ser permisiva y amigable para la empresa. Nvidia establece explícitamente que los modelos se pueden usar comercialmente fuera de la caja, y que los desarrolladores son libres de crear y distribuir modelos derivados. Es importante destacar que NVIDIA no reclama la propiedad de ningún resultado generado por el modelo, dejando la responsabilidad y los derechos con el desarrollador u organización que lo usa. Para un desarrollador empresarial, esto significa que el modelo se puede poner en producción inmediatamente sin negociar una licencia comercial separada o pagar tarifas vinculadas a los umbrales de uso, niveles de ingresos o recuentos de usuarios. No hay cláusulas que requieran una licencia pagada una vez que una empresa alcanza una determinada escala, a diferencia de algunas licencias abiertas escalonadas utilizadas por otros proveedores. Dicho esto, el acuerdo incluye varias condiciones que las empresas deben observar: barandas: los usuarios no pueden pasar por alto o deshabilitar los mecanismos de seguridad incorporados (denominados «barandillas») sin implementar reemplazos comparables adecuados para su implementación. Redistribución: cualquier redistribución del modelo o derivados debe incluir el texto y la atribución de la licencia de modelo Open NVIDIA («Licenciada por NVIDIA Corporation bajo la Licencia de Modelo Abierto de NVIDIA»). Cumplimiento: los usuarios deben cumplir con las regulaciones y restricciones comerciales (por ejemplo, leyes de exportación de EE. UU.). Términos de IA confiables: el uso debe alinearse con las directrices de IA de Nvidia Trustworthy, que cubren el despliegue responsable y las consideraciones éticas. Cláusula de litigio: si un usuario inicia los derechos de autor o el litigio de patentes contra otra entidad que alega infracción por parte del modelo, la licencia termina automáticamente. Estas condiciones se centran en el uso legal y responsable en lugar de la escala comercial. Las empresas no necesitan buscar permiso adicional o pagar regalías a NVIDIA simplemente para construir productos, monetizarlos o escalar su base de usuarios. En cambio, deben asegurarse de que las prácticas de implementación respeten la seguridad, la atribución y las obligaciones de cumplimiento. Posicionamiento en el mercado con Nemotron-Nano-9B-V2, NVIDIA está dirigido a desarrolladores que necesitan un equilibrio de capacidad de razonamiento y eficiencia de implementación a escalas más pequeñas. El control de presupuesto de tiempo de ejecución y las características de los toggles de razonamiento están destinadas a brindar a los constructores de sistemas más flexibilidad en la gestión de la precisión versus la velocidad de respuesta. Su liberación en abrazando la cara y el catálogo de modelos de Nvidia indica que están destinados a ser ampliamente accesibles para la experimentación e integración. El lanzamiento de Nvidia de Nemotron-Nano-9B-V2 muestra un enfoque continuo en la eficiencia y el razonamiento controlable en los modelos de idiomas. Al combinar arquitecturas híbridas con nuevas técnicas de compresión y capacitación, la compañía ofrece a los desarrolladores herramientas que buscan mantener la precisión al tiempo que reducen los costos y la latencia. Insights diarias sobre casos de uso de negocios con VB diariamente Si desea impresionar a su jefe, VB Daily lo tiene cubierto. Le damos la cuenta interior de lo que las empresas están haciendo con la IA generativa, desde cambios regulatorios hasta implementaciones prácticas, por lo que puede compartir ideas para el ROI máximo. Lea nuestra Política de privacidad Gracias por suscribirse. Mira más boletines de VB aquí. Ocurrió un error.
Deja una respuesta