Únase a los líderes empresariales de Gen AI en Boston el 27 de marzo para una noche exclusiva de networking, conocimientos y conversaciones sobre la integridad de los datos. Solicite una invitación aquí. Una nueva técnica desarrollada por la muy publicitada startup Sakana AI de Tokio, Japón, crea automáticamente modelos generativos. La técnica, llamada Evolutionary Model Merge, está inspirada en el proceso de selección natural y combina partes de modelos existentes para crear otros más capaces. Sakana AI anunció su existencia por primera vez en agosto de 2023, cofundada por estimados investigadores de IA, incluidos el ex empleado de Google David Ha y el coautor de “Attention Is All You Need”, Llion Jones (el artículo que lanzó la actual era de la IA generativa). La nueva técnica Evolutionary Model Merge de Sakana puede permitir a los desarrolladores y organizaciones crear y descubrir nuevos modelos a través de métodos rentables y sin la necesidad de gastar grandes cantidades para entrenar y ajustar sus propios modelos. Sakana ha lanzado un modelo de lenguaje grande (LLM) y un modelo de lenguaje de visión (VLM) creados a través de Evolutionary Model Merge. Evento VB The AI ​​Impact Tour – Atlanta Continuando con nuestro recorrido, nos dirigimos a Atlanta para la parada del AI Impact Tour el 10 de abril. Este evento exclusivo al que solo se puede acceder por invitación, en asociación con Microsoft, incluirá debates sobre cómo la IA generativa está transformando la fuerza laboral de seguridad. El espacio es limitado, así que solicite una invitación hoy. Solicite una invitación Presentamos la combinación de modelos evolutivos: un nuevo enfoque que nos acerca a la automatización del desarrollo de modelos básicos. ¡Utilizamos la evolución para encontrar excelentes formas de combinar modelos de código abierto y construir nuevos modelos básicos potentes con capacidades especificadas por el usuario! https://t.co/G0EyM7pztr pic.twitter.com/msOokvqGbR— Sakana AI (@SakanaAILabs) 21 de marzo , 2024 Fusión de modelos La formación de modelos generativos es un proceso costoso y complicado que la mayoría de las organizaciones no pueden permitirse. Pero con el lanzamiento de modelos abiertos como Llama 2 y Mistral, los desarrolladores han encontrado formas innovadoras de mejorarlos a bajo costo. Uno de estos métodos es la «fusión de modelos», donde se combinan diferentes componentes de dos o más modelos previamente entrenados para crear uno nuevo. Si se hace correctamente, el modelo fusionado puede potencialmente heredar las fortalezas y capacidades de los modelos originales. Curiosamente, los modelos fusionados no necesitan formación adicional, lo que los hace muy rentables. De hecho, muchos de los modelos de mayor rendimiento en las tablas de clasificación de Open LLM son versiones fusionadas de modelos base populares. «Lo que estamos presenciando es una gran comunidad de investigadores, hackers, entusiastas y artistas que buscan sus propias formas de desarrollar nuevos modelos básicos ajustando los modelos existentes en conjuntos de datos especializados o fusionando modelos existentes», escriben los investigadores de Sakana AI. el blog de la empresa. Con más de 500.000 modelos disponibles en Hugging Face, la fusión de modelos ofrece amplias posibilidades para que investigadores, desarrolladores y organizaciones exploren y creen nuevos modelos a un costo muy bajo. Sin embargo, la fusión de modelos depende en gran medida de la intuición y el conocimiento del dominio. Fusión de modelos evolutivos La nueva técnica de Sakana AI tiene como objetivo proporcionar un enfoque más sistemático para descubrir fusiones de modelos eficientes. «Creemos que los algoritmos evolutivos, inspirados en la selección natural, pueden desbloquear soluciones de fusión más efectivas», escriben los investigadores de Sakana AI. Los algoritmos evolutivos son técnicas de optimización basadas en poblaciones inspiradas en procesos de evolución biológica. Crean iterativamente soluciones candidatas combinando elementos de la población existente y seleccionando las mejores soluciones a través de una función de aptitud. Los algoritmos evolutivos pueden explorar un vasto espacio de posibilidades, descubriendo combinaciones novedosas y poco intuitivas que los métodos tradicionales y la intuición humana podrían pasar por alto. «La capacidad de desarrollar nuevos modelos con nuevas capacidades emergentes, a partir de una gran variedad de modelos diversos y existentes con diversas capacidades, tiene implicaciones importantes», dijo a VentureBeat el fundador de Sakana AI, David Ha. “Con los crecientes costos y requisitos de recursos para la capacitación de modelos básicos, al aprovechar la rica variedad de modelos básicos en el rico ecosistema de código abierto, las grandes instituciones o los gobiernos pueden considerar el enfoque evolutivo más económico para desarrollar rápidamente modelos prototipo de prueba de concepto. antes de comprometer un capital sustancial o aprovechar los recursos de la nación para desarrollar modelos completamente personalizados desde cero, si es que eso es necesario”. La combinación de modelos evolutivos de Sakana AI es un método general que utiliza técnicas evolutivas para descubrir las mejores formas de combinar diferentes modelos. En lugar de confiar en la intuición humana, Evolutionary Model Merge combina automáticamente las capas y pesos de los modelos existentes para crear y evaluar nuevas arquitecturas. Crédito: Sakana AI «Al trabajar con la vasta inteligencia colectiva de los modelos abiertos existentes, nuestro método es capaz de crear automáticamente nuevos modelos básicos con las capacidades deseadas especificadas por el usuario», según el blog de Sakana. Fusión evolutiva en acción Dados los impresionantes avances en los modelos fusionados creados manualmente, los investigadores querían ver hasta dónde puede llegar un algoritmo evolutivo para encontrar nuevas formas de combinar el gran conjunto de modelos básicos de código abierto. Descubrieron que Evolutionary Model Merging descubrió formas no triviales de fusionar diferentes modelos de dominios muy diferentes, como el idioma y las matemáticas en idiomas distintos del inglés o el idioma y la visión en otros idiomas. «Para probar nuestro enfoque, inicialmente probamos nuestro método para desarrollar automáticamente un modelo japonés de lenguaje grande (LLM) capaz de razonamiento matemático y un modelo japonés de visión-lenguaje (VLM)», escriben los investigadores. Los modelos resultantes lograron un rendimiento de última generación en varios puntos de referencia de visión y LLM sin estar optimizados explícitamente para ellos. Para el LLM, utilizaron el algoritmo evolutivo para fusionar el LLM japonés Shisa-Gamma y los LLM específicos de matemáticas WizardMath y Abel. EvoLLM-JP, su LLM japonés de matemáticas de 7 mil millones de parámetros, logró un alto rendimiento en varios puntos de referencia de LLM japoneses e incluso superó a algunos LLM japoneses de 70 mil millones de parámetros de última generación. «Creemos que nuestro LLM experimental en matemáticas japonesas es lo suficientemente bueno como para ser un LLM japonés de propósito general», escriben los investigadores. Para el VLM japonés, utilizaron LLaVa-1.6-Mistral-7B, un popular VLM de código abierto, y Shisa-Gamma 7B. EvoVLM-JP, el modelo resultante, pudo lograr puntuaciones más altas no solo que LLaVa-1.6-Mistral-7B sino también que JSVLM, un VLM japonés existente. Lanzaron ambos modelos en Hugging Face y GitHub. El equipo también está avanzando en la aplicación de métodos de fusión de modelos evolutivos a modelos de difusión de generación de imágenes. Están creando una nueva versión de Stable Diffusion XL que tiene resultados de alta calidad en indicaciones japonesas y puede generar imágenes muy rápido. “Acabamos de recibir los resultados de EvoSDXL-JP unos días antes del lanzamiento, por lo que no hemos realizado un lanzamiento o redacción adecuada para ese modelo. Ojalá podamos lanzarlo en los próximos 1 o 2 meses”, dijo Ha. La visión de Sakana AI Ha, ex jefe de investigación de Stability AI y ex investigador de Google Brain, fundó Sakana AI con Llion Jones, uno de los coautores del artículo de investigación fundamental de 2017 que presentó la arquitectura Transformer utilizada en modelos generativos. Sakana AI se centra en aplicar ideas inspiradas en la naturaleza, como la evolución y la inteligencia colectiva, para crear nuevos modelos básicos. “El futuro de la IA no consistirá en un único, gigantesco y omnisciente sistema de IA que requiera enorme energía para entrenarse, ejecutarse y mantenerse, sino más bien en una vasta colección de pequeños sistemas de IA, cada uno con su propio nicho y especialidad, que interactúan entre sí. entre sí, con sistemas de inteligencia artificial más nuevos desarrollados para llenar un nicho particular”, escribieron los investigadores. VB Daily ¡Manténgase informado! Reciba las últimas noticias en su bandeja de entrada diariamente. Al suscribirse, acepta los Términos de servicio de VentureBeat. Gracias por suscribirte. Consulte más boletines de VB aquí. Ocurrió un error.



Source link