El nuevo modelo de enrutador de 1.5B logra una precisión del 93% sin reentrenamiento costoso

¿Quieres ideas más inteligentes en tu bandeja de entrada? Regístrese en nuestros boletines semanales para obtener solo lo que importa a los líderes de IA, datos y seguridad empresariales. Los investigadores de suscripción ahora en Katanemo Labs han introducido Arch-Router, un nuevo modelo de enrutamiento y un marco diseñado para asignar de manera inteligente las consultas de los usuarios al modelo de lenguaje grande más adecuado (LLM). Para las empresas que construyen productos que se basan en múltiples LLM, Arch-Router tiene como objetivo resolver un desafío clave: cómo dirigir las consultas al mejor modelo para el trabajo sin confiar en la lógica rígida o la reentrenamiento costoso cada vez que algo cambia. Los desafíos del enrutamiento de LLM a medida que crece el número de LLM, los desarrolladores se están moviendo de configuraciones de modelos individuales a sistemas multimodelo que utilizan las fortalezas únicas de cada modelo para tareas específicas (p. Ej., Generación de código, resumen de texto o edición de imágenes). El enrutamiento LLM se ha convertido en una técnica clave para construir e implementar estos sistemas, actuando como un controlador de tráfico que dirige cada consulta de usuario al modelo más apropiado. Los métodos de enrutamiento existentes generalmente se dividen en dos categorías: «enrutamiento basado en tareas», donde las consultas se enrutan en función de las tareas predefinidas y el «enrutamiento basado en el rendimiento», que busca un equilibrio óptimo entre el costo y el rendimiento. Sin embargo, el enrutamiento basado en tareas lucha con intenciones de usuarios poco claras o cambiantes, particularmente en conversaciones múltiples. El enrutamiento basado en el rendimiento, por otro lado, prioriza rígidamente las puntuaciones de referencia, a menudo descuida las preferencias de los usuarios del mundo real y se adapta mal a los modelos nuevos a menos que sufra un ajuste costoso. Más fundamentalmente, como señalan los investigadores de Katanemo Labs en su artículo, «los enfoques de enrutamiento existentes tienen limitaciones en el uso del mundo real. Normalmente optimizan para el rendimiento de referencia al tiempo que descuidan las preferencias humanas impulsadas por los criterios de evaluación subjetivos». Los investigadores destacan la necesidad de sistemas de enrutamiento que «se alineen con las preferencias humanas subjetivas, ofrecen más transparencia y sigan siendo fácilmente adaptables a medida que evolucionan los modelos y los casos de uso». Un nuevo marco para el enrutamiento alineado por preferencias para abordar estas limitaciones, los investigadores proponen un marco de «enrutamiento alineado con preferencias» que coincide con las consultas con las políticas de enrutamiento basadas en las preferencias definidas por el usuario. En este marco, los usuarios definen sus políticas de enrutamiento en lenguaje natural utilizando una «taxonomía de acción de dominio». Esta es una jerarquía de dos niveles que refleja cómo las personas describen naturalmente las tareas, comenzando con un tema general (el dominio, como «legal» o «finanzas») y reduciéndose a una tarea específica (la acción, como «resumen» o «generación de código»). Cada una de estas políticas está vinculada a un modelo preferido, lo que permite a los desarrolladores tomar decisiones de enrutamiento basadas en necesidades del mundo real en lugar de solo puntajes de referencia. Como dice el documento, «esta taxonomía sirve como un modelo mental para ayudar a los usuarios a definir políticas de enrutamiento claras y estructuradas». El proceso de enrutamiento ocurre en dos etapas. Primero, un modelo de enrutador alineado con preferencias toma la consulta del usuario y el conjunto completo de políticas y selecciona la política más apropiada. En segundo lugar, una función de mapeo conecta la política seleccionada a su LLM designado. Debido a que la lógica de selección del modelo está separada de la política, los modelos se pueden agregar, eliminar o intercambiar simplemente editando las políticas de enrutamiento, sin necesidad de volver a entrenar o modificar el enrutador en sí. Este desacoplamiento proporciona la flexibilidad requerida para implementaciones prácticas, donde los modelos y los casos de uso evolucionan constantemente. Marco de enrutamiento alineado con preferencias Fuente: ARXIV La selección de políticas está alimentada por Arch-Router, un modelo de lenguaje de parámetros compacto de 1.5B ajustado para el enrutamiento alineado con preferencias. Arch-Router recibe la consulta del usuario y el conjunto completo de descripciones de políticas dentro de su mensaje. Luego genera el identificador de la política de mejor coincidencia. Dado que las políticas son parte de la entrada, el sistema puede adaptarse a rutas nuevas o modificadas en el tiempo de inferencia a través del aprendizaje en contexto y sin reentrenamiento. Este enfoque generativo permite que el arquero utilice su conocimiento previamente capacitado para comprender la semántica tanto de la consulta como de las políticas, y procese todo el historial de conversación a la vez. Una preocupación común con la inclusión de políticas extensas en un aviso es el potencial de una mayor latencia. Sin embargo, los investigadores diseñaron arco de arco para que fuera altamente eficiente. «Si bien la duración de las políticas de enrutamiento puede llegar a ser larga, podemos aumentar fácilmente la ventana de contexto del arco enriquecedor con un impacto mínimo en la latencia», explica Salman Paracha, coautor del documento y fundador/CEO de Katanemo Labs. Señala que la latencia está impulsada principalmente por la longitud de la salida, y para el arco-enrutador, la salida es simplemente el nombre corto de una política de enrutamiento, como «Image_Editing» o «Document_Creation». Arch-Router En acción para construir Arch-Router, los investigadores ajustaron una versión de parámetros 1.5B del modelo QWEN 2.5 en un conjunto de datos curado de 43,000 ejemplos. Luego probaron su desempeño contra modelos patentados de última generación de OpenAI, Anthrope y Google en cuatro conjuntos de datos públicos diseñados para evaluar los sistemas de IA conversacionales. Los resultados muestran que el arco-Router logra la puntuación de enrutamiento general más alta del 93.17%, superando a todos los demás modelos, incluidos los principales propietarios, en un promedio de 7.71%. La ventaja del modelo creció con conversaciones más largas, demostrando su fuerte capacidad para rastrear el contexto en múltiples vueltas. Arch-Router vs otros modelos Fuente: Arxiv En la práctica, este enfoque ya se está aplicando en varios escenarios, según Paracha. Por ejemplo, en las herramientas de codificación de código abierto, los desarrolladores usan Arch-Router para dirigir diferentes etapas de su flujo de trabajo, como «diseño de código», «comprensión del código» y «generación de código», a los LLM más adecuados para cada tarea. Del mismo modo, las empresas pueden enrutar las solicitudes de creación de documentos a un modelo como Claude 3.7 Sonnet mientras envían tareas de edición de imágenes a Gemini 2.5 Pro. El sistema también es ideal «para los asistentes personales en varios dominios, donde los usuarios tienen una diversidad de tareas, desde el resumen de texto hasta las consultas de factoides», dijo Paracha, y agregó que «en esos casos, el arquero puede ayudar a los desarrolladores a unificar y mejorar la experiencia general del usuario». Este marco está integrado con Arch, el servidor proxy nativo de AI de Katanemo Labs para agentes, lo que permite a los desarrolladores implementar reglas sofisticadas de forma de tráfico. Por ejemplo, al integrar un nuevo LLM, un equipo puede enviar una pequeña porción de tráfico para una política de enrutamiento específica al nuevo modelo, verificar su rendimiento con métricas internas y luego transiciones por completo con confianza. La compañía también está trabajando para integrar sus herramientas con plataformas de evaluación para optimizar este proceso para desarrolladores empresariales. En última instancia, el objetivo es ir más allá de las implementaciones de IA en aisladas. «El arco-enriquecimiento y el arco de manera más amplia, los desarrolladores y las empresas de ayuda se mueven de implementaciones de LLM fragmentadas a un sistema unificado y basado en políticas», dice Paracha. «En escenarios en los que las tareas de los usuarios son diversas, nuestro marco ayuda a convertir esa tarea y la fragmentación de LLM en una experiencia unificada, lo que hace que el producto final se sienta sin problemas para el usuario final». Insights diarias sobre casos de uso de negocios con VB diariamente Si desea impresionar a su jefe, VB Daily lo tiene cubierto. Le damos la cuenta interior de lo que las empresas están haciendo con la IA generativa, desde cambios regulatorios hasta implementaciones prácticas, por lo que puede compartir ideas para el ROI máximo. Lea nuestra Política de privacidad Gracias por suscribirse. Mira más boletines de VB aquí. Ocurrió un error.

Todo lo que necesitas saber sobre tecnología

El nuevo modelo de enrutador de 1.5B logra una precisión del 93% sin reentrenamiento costoso

Deja una respuesta Cancelar la respuesta

El nuevo modelo de enrutador de 1.5B logra una precisión del 93% sin reentrenamiento costoso

Modelos de lenguaje grande en el diagnóstico de enfermedades: una descripción técnica de 2025

Vivo V50 Lite puede pasar del 0 al 50% en hasta 20 minutos

Deja una respuesta Cancelar la respuesta