¿Quieres ideas más inteligentes en tu bandeja de entrada? Regístrese en nuestros boletines semanales para obtener solo lo que importa a los líderes de IA, datos y seguridad empresariales. Suscríbete ahora ha pasado un poco más de un mes desde que la startup china de IA Deepseek, una rama de High-Flyer Capital Management con sede en Hong Kong, lanzó la última versión de su exitoso modelo de código abierto Deepseek, R1-0528. Al igual que su predecesor, Deepseek-R1, que sacudió a las comunidades comerciales de IA y global con lo barato que estaba capacitado y qué tan bien se desempeñó en las tareas de razonamiento, todas disponibles para los desarrolladores y empresas de forma gratuita: R1-0528 ya está siendo adaptado y remezclado por otros laboratorios y desarrolladores de IA, gracias en gran parte por su licencia de apache de apache 2.0 permisiva. Esta semana, la firma alemana de 24 años TNG Technology Consulting GMBH lanzó una de esas adaptaciones: Deepseek-tng R1T2 Chimera, el último modelo en su familia Chimera Language Model (LLM). R1T2 ofrece un impulso notable en eficiencia y velocidad, puntuando a más del 90% de los puntajes de referencia de inteligencia de R1-0528, al tiempo que genera respuestas con menos del 40% del recuento de tokens de salida de R1-0528. Eso significa que produce respuestas más cortas, traduciendo directamente en una inferencia más rápida y costos de cálculo más bajos. En la tarjeta modelo TNG lanzada para su nuevo R1T2 en la cara de abrazo de la comunidad compartida de código AI, la compañía afirma que es «aproximadamente un 20% más rápido que el R1 regular» (el lanzado en enero) «y más del doble de R1-0528» (la actualización oficial de mayo de Deepseek). La respuesta ya ha sido increíblemente positiva en la comunidad de desarrolladores de IA. «¡Maldita sea! Esta ganancia es posible por el método de ensamblaje de expertos (AOE) de TNG, una técnica para construir LLM fusionando selectivamente los tensores de peso (parámetros internos) de múltiples modelos previamente capacitados que TNG describió en un artículo publicado en mayo en ARXIV, el revista en línea de acceso abierto no peor revisado. Un sucesor de la quimera R1T original, R1T2 presenta una nueva configuración «Tri-Mind» que integra tres modelos principales: Deepseek-R1-0528, Deepseek-R1 y Deepseek-V3-0324. El resultado es un modelo diseñado para mantener una alta capacidad de razonamiento al tiempo que reduce significativamente el costo de inferencia. R1T2 se construye sin más ajuste o reentrenamiento. Hereda la fuerza de razonamiento de R1-0528, los patrones de pensamiento estructurados de R1 y el comportamiento conciso y orientado a la instrucción de V3-0324, que ofrece un modelo más eficiente pero capaz para el uso empresarial y de investigación. Cómo el ensamblaje de expertos (AOE) difiere de la mezcla de la mezcla de expertos (MOE) la mezcla de expertos (MOE) es un diseño arquitectónico en el que diferentes componentes o «expertos» se activan condicionalmente por entrada. En MOE LLM como Deepseek-V3 o Mixtral, solo un subconjunto de las capas expertas del modelo (por ejemplo, 8 de 256) están activos durante el pase hacia adelante de cualquier token dado. Esto permite que los modelos muy grandes logren recuentos y especialización de parámetros más altos mientras mantienen los costos de inferencia manejables, porque solo se evalúa una fracción de la red por token. El ensamblaje de expertos (AOE) es una técnica de fusión de modelos, no una arquitectura. Se utiliza para crear un nuevo modelo a partir de múltiples modelos MOE previamente capacitados interpolando selectivamente sus tensores de peso. Los «expertos» en AOE se refieren a los componentes del modelo que se fusionan, generalmente los tensores de expertos enrutados dentro de las capas MOE, no los expertos activados dinámicamente en tiempo de ejecución. La implementación de TNG de AOE se centra principalmente en fusionar tensores de expertos enrutados, la parte de un modelo más responsable del razonamiento especializado, al tiempo que conserva las capas compartidas y de atención más eficientes de modelos más rápidos como V3-0324. Este enfoque permite que los modelos de quimera resultantes hereden la fuerza del razonamiento sin replicar la verbosidad o la latencia de los modelos principales más fuertes. Rendimiento y velocidad: lo que realmente muestran los puntos de referencia de acuerdo con las comparaciones de referencia presentadas por TNG, R1T2 logra entre el 90% y el 92% del rendimiento de razonamiento de sus padres más inteligentes, Deepseek-R1-0528, según lo medido por AIME-24, AIME-25 y GPQA-Diamond Test Sets. Sin embargo, a diferencia de Deepseek-R1-0528, que tiende a producir respuestas largas y detalladas debido a su razonamiento extendido de la cadena de pensamiento, R1T2 está diseñado para ser mucho más conciso. Ofrece respuestas igualmente inteligentes mientras usa significativamente menos palabras. En lugar de centrarse en el tiempo de procesamiento en bruto o los tokens por segundo, TNG mide la «velocidad» en términos de recuento de tokens de salida por respuesta, un proxy práctico tanto para el costo como para la latencia. Según los puntos de referencia compartidos por TNG, R1T2 genera respuestas utilizando aproximadamente el 40% de los tokens requeridos por R1-0528. Eso se traduce en una reducción del 60% en la longitud de salida, lo que reduce directamente el tiempo de inferencia y la carga de calcular, acelerando las respuestas en 2X, o 200%. En comparación con el Deepseek-R1 original, R1T2 también es alrededor del 20% más conciso en promedio, ofreciendo ganancias significativas en eficiencia para implementaciones de alto rendimiento o sensibles a los costos. Esta eficiencia no tiene costo de inteligencia. Como se muestra en la tabla de referencia presentada en el documento técnico de TNG, R1T2 se encuentra en una zona deseable en la curva de costo de inteligencia versus de salida. Preserva la calidad del razonamiento al tiempo que minimiza la verbosidad, un resultado crítico para las aplicaciones empresariales donde la velocidad, el rendimiento y el costo de la inferencia. Las consideraciones de implementación y la disponibilidad R1T2 se libera bajo una licencia MIT permisiva y ahora está disponible en la cara de abrazo, lo que significa que es de código abierto y está disponible para ser utilizado y integrado en aplicaciones comerciales. TNG señala que si bien el modelo es adecuado para tareas de razonamiento general, actualmente no se recomienda para casos de uso que requieren llamadas a funciones o uso de herramientas, debido a limitaciones heredadas de su linaje Deepseek-R1. Estos pueden abordarse en futuras actualizaciones. La Compañía también aconseja a los usuarios europeos que evalúen el cumplimiento de la Ley de AI de la UE, que entra en vigencia el 2 de agosto de 2025. Sin embargo, las empresas estadounidenses que operan a nivel nacional y que atienden a los usuarios con sede en los Estados Unidos, o las de otras naciones, no están sujetas a los términos de la Ley de AI de la UE, lo que debería darles una flexibilidad considerable al usar e implementar este modelo de razonamiento de código abierto gratuito y rápido. Si atienden a los usuarios en la UE, todavía se aplicarán algunas disposiciones de la Ley de la UE. TNG ya ha puesto a disposición variantes de quimera previas a través de plataformas como OpenRouter y Chutes, donde, según los informes, procesaron miles de millones de tokens todos los días. La liberación de R1T2 representa una evolución adicional en este esfuerzo de disponibilidad pública. Acerca de TNG Technology Consulting GMBH Fundada en enero de 2001, TNG Technology Consulting GMBH tiene su sede en Baviera, Alemania, y emplea a más de 900 personas, con una alta concentración de doctorados y especialistas técnicos. La compañía se centra en el desarrollo de software, la inteligencia artificial y los servicios de DevOps/en la nube, que atiende a los principales clientes empresariales en todas las industrias, como telecomunicaciones, seguros, automotriz, comercio electrónico y logística. TNG opera como una asociación de consultoría basada en valores. Su estructura única, basada en la investigación operativa y los principios de autogestión, respalda una cultura de innovación técnica. Contribuye activamente a las comunidades e investigaciones de código abierto, como se demuestra a través de lanzamientos públicos como R1T2 y la publicación de su metodología de la Asamblea de Expertos. Lo que significa para los tomadores de decisiones técnicas empresariales para CTO, propietarios de plataformas de inteligencia artificial, clientes potenciales de ingeniería y equipos de adquisición de TI, R1T2 introduce beneficios tangibles y opciones estratégicas: costos de inferencia más bajos: con menos tokens de producción por tarea, R1T2 reduce el tiempo de GPU y el consumo de energía, traduciendo directamente las ahorros de infraestructuras, especialmente en los entornos de tiempo real o en el tiempo real. Alta calidad de razonamiento sin sobrecarga: preserva gran parte del poder de razonamiento de los modelos de primer nivel como R1-0528, pero sin su larga alivio. Esto es ideal para tareas estructuradas (matemáticas, programación, lógica) donde las respuestas concisas son preferibles. Abierto y modificable: la licencia del MIT permite el control y personalización de la implementación completa, lo que permite el alojamiento privado, la alineación del modelo o la capacitación adicional en entornos regulados o recaudados en el aire. Modularidad emergente: el enfoque AOE sugiere un futuro donde los modelos se construyen modularmente, lo que permite a las empresas ensamblar variantes especializadas recombinando las fuerzas de los modelos existentes, en lugar de reentrenarse desde cero. Advertencias: las empresas que dependen de las transmisiones de funciones, el uso de la herramienta o la orquestación de agentes avanzados deben tener en cuenta las limitaciones actuales, aunque las actualizaciones de quimera futuras pueden abordar estas brechas. TNG alienta a los investigadores, desarrolladores y usuarios empresariales a explorar el modelo, probar su comportamiento y proporcionar comentarios. La chimera R1T2 está disponible en huggingface.co/tngtech/deepseek-tng-r1t2-chimera, y las consultas técnicas pueden dirigirse a investigar@tngtech.com. Para antecedentes técnicos y metodología de referencia, el trabajo de investigación de TNG está disponible en ARXIV: 2506.14794. Insights diarias sobre casos de uso de negocios con VB diariamente Si desea impresionar a su jefe, VB Daily lo tiene cubierto. Le damos la cuenta interior de lo que las empresas están haciendo con la IA generativa, desde cambios regulatorios hasta implementaciones prácticas, por lo que puede compartir ideas para el ROI máximo. Lea nuestra Política de privacidad Gracias por suscribirse. Mira más boletines de VB aquí. Ocurrió un error.
Deja una respuesta