Liquid, spin-off del MIT, presenta modelos de IA pequeños y eficientes sin transformadores

Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder en la industria. Más información Liquid AI, una startup cofundada por ex investigadores del Laboratorio de Inteligencia Artificial y Ciencias de la Computación (CSAIL) del Instituto de Tecnología de Massachusetts (MIT), ha anunciado el debut de sus primeros modelos de IA multimodal. A diferencia de la mayoría de los demás miembros de la ola generativa actual de IA, estos modelos no se basan en la arquitectura de transformador descrita en el artículo fundamental de 2017 «La atención es todo lo que necesitas». En cambio, Liquid afirma que su objetivo «es explorar formas de construir modelos básicos más allá de los Transformadores Generativos Preentrenados (GPT)» y con los nuevos LFM, específicamente construyendo a partir de «primeros principios… de la misma manera que los ingenieros construyeron motores, automóviles y aviones». .” Parece que han hecho precisamente eso, ya que los nuevos modelos LFM ya cuentan con un rendimiento superior a otros basados en transformadores de tamaño comparable, como el Llama 3.1-8B de Meta y el Phi-3.5 3.8B de Microsoft. Conocidos como “Modelos de base líquida (LFM)”, estos modelos actualmente vienen en tres tamaños y variantes diferentes: LFM 1.3B (el más pequeño) LFM 3B LFM 40B MoE (el más grande, un modelo de “mezcla de expertos” similar al Mixtral de Mistral ) La “B” en su nombre significa mil millones y se refiere a la cantidad de parámetros (o configuraciones) que gobiernan el procesamiento de información, el análisis y la generación de resultados del modelo. Generalmente, los modelos con una mayor cantidad de parámetros son más capaces en una gama más amplia de tareas. Liquid AI ya dice que la versión LFM 1.3B supera a la nueva Llama 3.2-1.2B de Meta y al Phi-1.5 de Microsoft en muchos puntos de referencia de terceros, incluido el popular Massive Multitask Language Understanding (MMLU), que consta de 57 problemas en ciencia, tecnología e ingeniería. y matemáticas (STEM), «la primera vez que una arquitectura que no es GPT supera significativamente a los modelos basados en transformadores». Los tres están diseñados para ofrecer un rendimiento de última generación y al mismo tiempo optimizar la eficiencia de la memoria; el LFM-3B de Liquid requiere solo 16 GB de memoria en comparación con los más de 48 GB requeridos por el modelo Llama-3.2-3B de Meta (que se muestra en el cuadro de arriba). Maxime Labonne, jefe de post-entrenamiento en Liquid AI, recurrió a su cuenta en X para decir que los LFM fueron «el lanzamiento del que estoy más orgulloso de mi carrera :)» y para aclarar que la principal ventaja de los LFM: su capacidad para superar a los basados en transformadores. modelos mientras utiliza significativamente menos memoria. Este es el lanzamiento del que estoy más orgulloso de mi carrera :)En @LiquidAI_, estamos lanzando tres LLM (1B, 3B, 40B MoE) con rendimiento SOTA, basados en una arquitectura personalizada. El uso mínimo de memoria y la inferencia eficiente llevan las tareas de contexto largas al límite. dispositivos por primera vez! pic.twitter.com/v9DelExyTa— Maxime Labonne (@maximelabonne) 30 de septiembre de 2024 Los modelos están diseñados para ser competitivos no solo en términos de rendimiento bruto sino también en términos de eficiencia operativa, lo que los hace ideales para una variedad de casos de uso, desde aplicaciones de nivel empresarial específicamente en los campos de servicios financieros, biotecnología y electrónica de consumo, hasta la implementación en dispositivos de borde. Sin embargo, lo que es más importante para los posibles usuarios y clientes, los modelos no son de código abierto. En cambio, los usuarios deberán acceder a ellos a través del campo de inferencia de Liquid, Lambda Chat o Perplexity AI. Cómo Liquid va ‘más allá’ del transformador generativo preentrenado (GPT) En este caso, Liquid dice que utilizó una combinación de «unidades computacionales profundamente arraigadas en la teoría de sistemas dinámicos, procesamiento de señales y álgebra lineal numérica», y que El resultado son “modelos de IA de uso general que se pueden utilizar para modelar cualquier tipo de datos secuenciales, incluidos vídeo, audio, texto, series temporales y señales” para entrenar sus nuevos LFM. El año pasado, VentureBeat cubrió más sobre el enfoque de Liquid para entrenar modelos de IA post-transformador, señalando en ese momento que estaba utilizando Liquid Neural Networks (LNN), un desarrollador de arquitectura en CSAIL que busca crear “neuronas” o nodos artificiales para la transformación. datos, más eficientes y adaptables. A diferencia de los modelos tradicionales de aprendizaje profundo, que requieren miles de neuronas para realizar tareas complejas, los LNN demostraron que menos neuronas (combinadas con formulaciones matemáticas innovadoras) podrían lograr los mismos resultados. Los nuevos modelos de Liquid AI conservan los beneficios principales de esta adaptabilidad, permitiendo ajustes en tiempo real durante la inferencia sin la sobrecarga computacional asociada con los modelos tradicionales, manejando hasta 1 millón de tokens de manera eficiente y manteniendo el uso de memoria al mínimo. Un gráfico del blog Liquid muestra que el modelo LFM-3B, por ejemplo, supera a modelos populares como Gemma-2 de Google, Phi-3 de Microsoft y Llama-3.2 de Meta en términos de huella de memoria de inferencia, especialmente en escalas de longitud de token. Mientras que otros modelos experimentan un fuerte aumento en el uso de memoria para el procesamiento de contextos prolongados, el LFM-3B ocupa un espacio significativamente más pequeño, lo que lo hace muy adecuado para aplicaciones que requieren grandes volúmenes de procesamiento de datos secuenciales, como análisis de documentos o chatbots. Liquid AI ha creado sus modelos básicos para que sean versátiles en múltiples modalidades de datos, incluidos audio, video y texto. Con esta capacidad multimodal, Liquid pretende abordar una amplia gama de desafíos específicos de la industria, desde servicios financieros hasta biotecnología y electrónica de consumo. Al aceptar invitaciones para el evento de lanzamiento y considerar mejoras futuras, Liquid AI dice que está optimizando sus modelos para su implementación en hardware de NVIDIA, AMD, Apple, Qualcomm y Cerebras. Si bien los modelos aún se encuentran en la fase de vista previa, Liquid AI invita a los primeros usuarios y desarrolladores a probar los modelos y brindar comentarios. Labonne señaló que, si bien las cosas “no son perfectas”, los comentarios recibidos durante esta fase ayudarán al equipo a perfeccionar sus ofertas en preparación para un evento de lanzamiento completo el 23 de octubre de 2024 en el Auditorio Kresge del MIT en Cambridge, MA. La compañía acepta confirmaciones de asistencia para los asistentes a ese evento en persona aquí. Como parte de su compromiso con la transparencia y el progreso científico, Liquid afirma que publicará una serie de publicaciones técnicas en el blog antes del evento de lanzamiento del producto. La compañía también planea participar en esfuerzos de equipo rojo, alentando a los usuarios a probar los límites de sus modelos para mejorar futuras iteraciones. Con la introducción de Liquid Foundation Models, Liquid AI se está posicionando como un actor clave en el espacio de los modelos de cimentación. Al combinar un rendimiento de última generación con una eficiencia de memoria sin precedentes, los LFM ofrecen una alternativa convincente a los modelos tradicionales basados en transformadores. VB Daily ¡Manténgase informado! Reciba las últimas noticias en su bandeja de entrada diariamente. Al suscribirse, acepta los Términos de servicio de VentureBeat. Gracias por suscribirte. Consulte más boletines de VB aquí. Se produjo un error.

Todo lo que necesitas saber sobre tecnología

Liquid, spin-off del MIT, presenta modelos de IA pequeños y eficientes sin transformadores

Deja una respuesta Cancelar la respuesta

Liquid, spin-off del MIT, presenta modelos de IA pequeños y eficientes sin transformadores

La interrupción de Verizon muestra por qué las conexiones satelitales y el ‘roaming ante desastres’ son importantes

El viaje hacia agentes de IA totalmente autónomos y los capitalistas de riesgo que los financian

Deja una respuesta Cancelar la respuesta