¿Quieres ideas más inteligentes en tu bandeja de entrada? Regístrese en nuestros boletines semanales para obtener solo lo que importa a los líderes de IA, datos y seguridad empresariales. Suscríbete ahora una nueva técnica evolutiva de AI Lab Sakana AI, con sede en Japón, permite a los desarrolladores aumentar las capacidades de los modelos de IA sin capacitación costosa y procesos de ajuste fino. La técnica, llamada fusión modelo de nichos naturales (M2N2), supera las limitaciones de otros métodos de fusión de modelo e incluso puede evolucionar nuevos modelos desde cero. M2N2 se puede aplicar a diferentes tipos de modelos de aprendizaje automático, incluidos modelos de idiomas grandes (LLM) y generadores de texto a imagen. Para las empresas que buscan construir soluciones de IA personalizadas, el enfoque ofrece una forma poderosa y eficiente de crear modelos especializados combinando las fortalezas de las variantes de código abierto existentes. ¿Qué es la fusión del modelo? La fusión del modelo es una técnica para integrar el conocimiento de múltiples modelos de IA especializados en un solo modelo más capaz. En lugar de ajustar, que refina un solo modelo previamente capacitado que usa nuevos datos, la fusión combina los parámetros de varios modelos simultáneamente. Este proceso puede consolidar una gran cantidad de conocimiento en un activo sin requerir capacitación o acceso costosa o acceso a los datos de capacitación originales. Para los equipos empresariales, esto ofrece varias ventajas prácticas sobre el ajuste tradicional. En los comentarios a VentureBeat, los autores del documento dijeron que la fusión del modelo es un proceso sin gradiente que solo requiere pases hacia adelante, lo que lo hace computacionalmente más barato que el ajuste, lo que implica costosas actualizaciones de gradiente. Fusionar también deja de lado la necesidad de datos de capacitación cuidadosamente equilibrados y mitiga el riesgo de «olvido catastrófico», donde un modelo pierde sus capacidades originales después de aprender una nueva tarea. La técnica es especialmente poderosa cuando los datos de entrenamiento para modelos especializados no están disponibles, ya que la fusión solo requiere los pesos del modelo. AI Scaling alcanza sus límites de potencia de límites, el aumento de los costos de los tokens y los retrasos de inferencia están remodelando Enterprise AI. Únase a nuestro salón exclusivo para descubrir cómo son los mejores equipos: convertir la energía en una ventaja estratégica arquitectando una inferencia eficiente para las ganancias de rendimiento real que desbloquean el ROI competitivo con sistemas de IA sostenibles asegura su lugar para mantenerse a la vanguardia: https://bit.ly/4MWGNGO Los enfoques tempranos para la fusión de modelos requirieron un esfuerzo manual significativo, a medida que los desarrolladores ajustaban los coeficientes a través de la ensayo y el error para encontrar la vejiga óptima. Más recientemente, los algoritmos evolutivos han ayudado a automatizar este proceso buscando la combinación óptima de parámetros. Sin embargo, queda un paso manual significativo: los desarrolladores deben establecer conjuntos fijos para parámetros fusionables, como las capas. Esta restricción limita el espacio de búsqueda y puede evitar el descubrimiento de combinaciones más poderosas. Cómo funciona M2N2 M2N2 aborda estas limitaciones al inspirarse en los principios evolutivos en la naturaleza. El algoritmo tiene tres características clave que le permiten explorar una gama más amplia de posibilidades y descubrir combinaciones de modelos más efectivas. Fundación del modelo de nichos naturales Fuente: ARXIV Primero, M2N2 elimina los límites de fusión fijos, como bloques o capas. En lugar de agrupar los parámetros por capas predefinidas, utiliza «puntos divididos» flexibles y «ración de mezcla» para dividir y combinar modelos. Esto significa que, por ejemplo, el algoritmo podría fusionar el 30% de los parámetros en una capa del Modelo A con el 70% de los parámetros de la misma capa en el Modelo B. El proceso comienza con un «archivo» de modelos de semillas. En cada paso, M2N2 selecciona dos modelos del archivo, determina una relación de mezcla y un punto de división, y los fusiona. Si el modelo resultante funciona bien, se agrega nuevamente al archivo, reemplazando uno más débil. Esto permite que el algoritmo explore combinaciones cada vez más complejas con el tiempo. Como señalan los investigadores, «esta introducción gradual de complejidad garantiza una gama más amplia de posibilidades mientras se mantiene la tractabilidad computacional». En segundo lugar, M2N2 administra la diversidad de su población modelo a través de la competencia. Para comprender por qué la diversidad es crucial, los investigadores ofrecen una analogía simple: «Imagine fusionar dos hojas de respuestas para un examen … Si ambas hojas tienen exactamente las mismas respuestas, combinarlas no hace ninguna mejora. Pero si cada hoja tiene respuestas correctas para diferentes preguntas, fusionarlas da un resultado mucho más fuerte». La fusión del modelo funciona de la misma manera. El desafío, sin embargo, es definir qué tipo de diversidad es valioso. En lugar de confiar en las métricas hechas a mano, M2N2 simula la competencia por recursos limitados. Este enfoque inspirado en la naturaleza recompensa naturalmente a los modelos con habilidades únicas, ya que pueden «aprovechar los recursos no contempla» y resolver problemas que otros no pueden. Estos especialistas de nicho, señalan los autores, son los más valiosos para fusionarse. Tercero, M2N2 usa una heurística llamada «atracción» para emparejar modelos para fusionar. En lugar de simplemente combinar los modelos de alto rendimiento como en otros algoritmos de fusión, los combina en función de sus fortalezas complementarias. Una «puntuación de atracción» identifica pares en los que un modelo funciona bien en los puntos de datos que el otro encuentra desafiante. Esto mejora tanto la eficiencia de la búsqueda como la calidad del modelo fusionado final. M2N2 En acción, los investigadores probaron M2N2 en tres dominios diferentes, demostrando su versatilidad y efectividad. El primero fue un experimento a pequeña escala que evoluciona los clasificadores de imágenes basados en la red neuronal desde cero en el conjunto de datos MNIST. M2N2 logró la mayor precisión de la prueba por un margen sustancial en comparación con otros métodos. Los resultados mostraron que su mecanismo de preservación de diversidad era clave, lo que le permitió mantener un archivo de modelos con fortalezas complementarias que facilitaron la fusión efectiva mientras descartaron sistemáticamente soluciones más débiles. A continuación, aplicaron M2N2 a LLMS, combinando un modelo especialista en matemáticas (WizardMath-7b) con un especialista en agente (AgenteVol-7B), los cuales se basan en la arquitectura LLAMA 2. El objetivo era crear un solo agente que se destacara tanto en los problemas matemáticos (conjunto de datos GSM8K) como en las tareas basadas en la web (conjunto de datos de la tienda web). El modelo resultante alcanzó un fuerte rendimiento en ambos puntos de referencia, mostrando la capacidad de M2N2 para crear modelos potentes y multiscronos. Un modelo fusionado con M2N2 combina lo mejor de ambos modelos de semillas Fuente: ARXIV Finalmente, el equipo fusionó los modelos de generación de imágenes basados en difusión. Combinaron un modelo entrenado en indicaciones japonesas (JSDXL) con tres modelos de difusión estables entrenados principalmente en indicaciones en inglés. El objetivo era crear un modelo que combinara las mejores capacidades de generación de imágenes de cada modelo de semilla mientras conservaba la capacidad de comprender el japonés. El modelo fusionado no solo produjo imágenes más fotorrealistas con una mejor comprensión semántica, sino que también desarrolló una habilidad bilingüe emergente. Podría generar imágenes de alta calidad a partir de indicaciones en inglés y japonesa, a pesar de que se optimizó exclusivamente utilizando subtítulos japoneses. Para las empresas que ya han desarrollado modelos especializados, el caso comercial para la fusión es convincente. Los autores señalan nuevas capacidades híbridas que serían difíciles de lograr de otra manera. Por ejemplo, fusionar un LLM ajustado para argumentos de venta persuasivos con un modelo de visión entrenado para interpretar las reacciones de los clientes podría crear un solo agente que adapte su tono en tiempo real en función de los comentarios de video en vivo. Esto desbloquea la inteligencia combinada de múltiples modelos con el costo y la latencia de ejecutar solo uno. Mirando hacia el futuro, los investigadores ven técnicas como M2N2 como parte de una tendencia más amplia hacia la «fusión modelo». Imaginan un futuro en el que las organizaciones mantienen ecosistemas completos de modelos de IA que evolucionan y se fusionan continuamente para adaptarse a los nuevos desafíos. «Piense en ello como un ecosistema en evolución donde las capacidades se combinan según sea necesario, en lugar de construir un monolito gigante desde cero», sugieren los autores. Los investigadores han publicado el Código de M2N2 en GitHub. El mayor obstáculo a este ecosistema de IA dinámico y administrativo, creen que los autores no es técnico sino organizacional. «En un mundo con un gran ‘modelo fusionado’ compuesto por componentes de código abierto, comerciales y personalizados, garantizar la privacidad, la seguridad y el cumplimiento será un problema crítico». Para las empresas, el desafío será descubrir qué modelos se pueden absorber de manera segura y efectiva en su pila de IA en evolución. Insights diarias sobre casos de uso de negocios con VB diariamente Si desea impresionar a su jefe, VB Daily lo tiene cubierto. Le damos la cuenta interior de lo que las empresas están haciendo con la IA generativa, desde cambios regulatorios hasta implementaciones prácticas, por lo que puede compartir ideas para el ROI máximo. Lea nuestra Política de privacidad Gracias por suscribirse. Mira más boletines de VB aquí. Ocurrió un error.
Deja una respuesta