2023 fue en gran medida el año del gran modelo lingüístico. Los modelos GPT de OpenAI, Llama de Meta, PaLM de Google y Claude 2 de Anthropic son todos grandes modelos de lenguaje, o LLM, con muchos miles de millones de parámetros, entrenados en contenido de Internet y utilizados para generar texto y código. Pero no son los sólo tecnologías en desarrollo. Caso en cuestión: Microsoft Research ha estado explorando una forma alternativa de construir modelos de IA generativos que ofrezcan resultados consistentes con una cantidad mucho menor de parámetros. Ingrese el modelo de lenguaje pequeño, o SLM. ¿Por qué los modelos de lenguaje pequeño? Un modelo de lenguaje pequeño es mucho más fácil de hacer portátil. No siempre podemos estar conectados a la nube. Al mismo tiempo, es posible que no queramos entrenar un modelo con datos públicos. Se necesitan meses para capacitar a un LLM de clase GPT utilizando una supercomputadora. Al construir un modelo de lenguaje a partir de un conjunto más pequeño de datos privados o específicos de un dominio (por ejemplo, el código base interno de un banco), podríamos ofrecer un modelo que sea a la vez más pequeño y más especializado (como un generador de código que se beneficie de años de investigación interna). conocimiento y estándares de codificación de los equipos de desarrollo del banco). Actualmente se está trabajando mucho en los SLM, con resultados sorprendentemente buenos. Una de las familias de modelos más interesantes es la serie Phi de Microsoft Research, que recientemente cambió de una licencia exclusiva para investigación a una licencia MIT más permisiva. Microsoft Research ha utilizado un enfoque que llama «todo lo que necesitas son libros de texto» para entrenar su serie Phi. de los SLM. La idea es entrenar estratégicamente el modelo utilizando fuentes autorizadas, para poder brindar respuestas de manera clara y concisa. Para la última versión, Phi 2, los datos de entrenamiento de Microsoft mezclaron contenido sintético e información rastreada en la web. Los datos sintéticos se utilizan para brindar al modelo conocimiento fundamental para respaldar el razonamiento básico, así como una base de conocimiento general, por lo que los resultados no se limitan a datos de nivel de libro de texto y puede responder al contexto de un usuario de manera más efectiva. los resultados hablan por si mismos. Phi 2 ha sido comparado con modelos más grandes y considerablemente más complejos, y a veces mejores que ellos. Entrenamiento de un SLM con datos seleccionados Microsoft Research señala que la calidad de los datos de entrenamiento utilizados es clave para ofrecer buenos resultados y exhibir el tipo de comportamiento observado en modelos mucho más grandes. En lugar de entrenar el modelo con un gran corpus de datos web, que es inherentemente aleatorio, el equipo que construye los modelos Phi selecciona sus datos de entrenamiento, centrándose en la calidad del contenido. El equipo también ha utilizado el conocimiento existente de modelos Phi anteriores para poner en marcha Phi 2, acelerando el entrenamiento. A diferencia de los transformadores de mayor escala, los modelos Phi no reciben aprendizaje por refuerzo impulsado por retroalimentación humana. La curación de los datos de entrenamiento hace innecesario este aprendizaje por refuerzo. También hace que sea menos probable que el modelo produzca resultados tóxicos o sesgados. Sin embargo, se aplica el principio de basura que entra, basura sale: sería posible entrenar una versión de Phi que estuviera deliberadamente sesgada al elegir un conjunto sesgado de datos de entrenamiento. Como resultado, debe probar cualquier SLM antes de usarlo para asegurarse de que se comportará como se espera. Los datos sintéticos utilizados como parte del conjunto de entrenamiento de Phi fueron generados por IA, por lo que era necesario examinarlos cuidadosamente para garantizar que no incluyeran imprecisiones. La primera versión de Phi fue diseñada para funcionar como generador de código y fue entrenada en bases de código existentes con licencias permisivas; Luego, estos se seleccionaron más para filtrar el código que no era adecuado para fines didácticos. Es posible que Phi no tenga todo el poder del Codex de OpenAI, pero puede ofrecer consejos e ideas útiles para trabajar con código, especialmente cuando se combina con un índice de búsqueda centrado en el código. Los libros de texto son todo lo que necesitaVale la pena leer el libro de texto original Los libros de texto son todo lo que necesita artículo y su seguimiento, a medida que detallan cómo el equipo modelo desarrolló sus conjuntos de datos de entrenamiento sintéticos, utilizando GPT 3.5 para crear código de muestra y libros de texto. Una conclusión interesante fue cómo pudieron evitar que los documentos generados fueran demasiado similares agregando aleatoriedad a las indicaciones utilizadas para crear contenido. Una vez que se generó un modelo base, el equipo lo ajustó con datos más detallados, por ejemplo produciendo diferentes ajustes para diferentes tareas. Aunque Phi 2 tiene muchos menos parámetros que, digamos, GPT 3.5, todavía necesita un entorno de entrenamiento dedicado. . El SLM utilizó un conjunto de datos de tokens de 1,4 billones, con 2,7 mil millones de parámetros, y tardó 14 días en entrenarse. Si bien necesitaba 96 GPU Nvidia A100, la capacitación tomó mucho menos tiempo y muchos menos recursos que la capacitación de un LLM como GPT. Es posible que capacitar un SLM esté al alcance de la mayoría de las organizaciones, especialmente si utiliza capacidad de pago por uso en una nube pública. Es posible imaginar formulaciones alternativas de Phi basadas en diferentes conjuntos de datos sintéticos, por ejemplo, una biblioteca. de contratos sintéticos u otros tipos de documentos comunes. Una vez capacitado, el ajuste con documentos reales en el dominio de destino reduce el riesgo de error y ayuda a entregar un modelo fundamentado. Por supuesto, no es necesario crear o ajustar su propia variante. Para la funcionalidad básica de chat, puede usar Phi 2 tal como está, o más probablemente, usarlo como parte de una aplicación basada en RAG (generación aumentada de recuperación), trabajando con LangChain o un enfoque similar. Como Phi es parte de Azure AI Studio (y pronto de Windows AI Studio), se puede usar tanto en la nube como en las instalaciones. Uso de SLM en sus aplicaciones Una versión cuantificada de Phi 2 pesa menos de 1,9 GB, lo suficientemente pequeña como para ser entregada. como parte de una aplicación web. (Encontrará una aplicación de demostración de Rust/WebAssembly en el repositorio de Hugging Face). Es lento dar una respuesta inicial durante la carga, pero una vez que el SLM se almacena en caché, responde razonablemente. Eso sin necesidad de utilizar una GPU o NPU. Los aceleradores deberían permitir que un SLM funcione bien junto con el código tradicional. Es importante tener en cuenta que los SLM como Phi 2 tienen sus limitaciones, especialmente en cuanto a la longitud del token de las indicaciones. No deberías esperar utilizar indicaciones complejas. Sin embargo, si desinfecta cuidadosamente las entradas y aplica límites estrictos a la longitud de la cadena, debería encontrar que un SLM manejará la mayoría de las consultas, por ejemplo en una aplicación de preguntas y respuestas. Tener un SLM local liviano ajustado a datos personalizados o utilizado como parte de un La aplicación RAG local, donde el SLM proporciona la interfaz de lenguaje natural para una búsqueda, es una perspectiva intrigante. Un punto clave es que el tamaño y los requisitos de recursos de los SLM los hacen económicamente atractivos para tareas que serían demasiado costosas de realizar con LLM. Incluir un SLM como Phi en flujos de trabajo comunes, como para entregar rápidamente resúmenes legibles y comprensibles de datos clave, podría resultar muy útil. El resultado sería una alternativa intrigante a los viejos paradigmas de la interfaz de usuario, especialmente cuando se trabaja con datos no estructurados. Una opción interesante nos remonta a principios de la década de 1990 y a la investigación sobre la idea de los «agentes inteligentes». Un equipo de SLM como Phi, cada uno de los cuales impulse un agente inteligente y proporcione una interfaz entre nosotros y un mar de datos no estructurados, podría ser una forma de ofrecer el entorno informático adaptativo y basado en el contexto imaginado por los primeros investigadores de la informática ubicua. Copyright © 2024 IDG Communications, Inc.
Source link
Deja una respuesta