Microsoft ha confirmado que está trabajando en MAI-1, un nuevo modelo de lenguaje grande (LLM) que podría ser lo suficientemente grande como para rivalizar con los modelos construidos más grandes disponibles actualmente, incluidos Google Gemini y GPT-4. Según un informe de The Information, el El nuevo modelo de 500 mil millones de parámetros se llama MAI-1 y está siendo supervisado por el CEO de IA de Microsoft, Mustafa Suleyman. Suleyman, quien recientemente fue contratado por Microsoft para liderar su división de desarrollo de IA para el consumidor, fue cofundador de la empresa de IA Inflection y uno de los fundadores del pionero de la IA en el Reino Unido, DeepMind. La medida marca un cambio radical para Microsoft, que hasta ahora se ha basado en gran medida en modelos desarrollados por OpenAI para impulsar su carga en la carrera de la IA generativa contra grandes competidores como Google y AWS. ¿Cómo funciona MAI? 1 comparar con sus rivales? Si MAI-1 se construye con 500 mil millones de parámetros, eso lo convertiría en uno de los modelos más grandes conocidos actualmente. Por ejemplo, se cree que ChatGPT-4 de OpenAI tiene alrededor de 1 billón de parámetros; Grok, de xAI de Elon Musk, tiene 314 mil millones de parámetros. Otros grandes actores de la IA, como Google y Anthropic, han mantenido en secreto la cantidad de parámetros en sus LLM. Reciba nuestras últimas noticias, actualizaciones de la industria, recursos destacados y más. Regístrese hoy para recibir nuestro informe GRATUITO sobre seguridad y delitos cibernéticos de IA, recientemente actualizado para 2024. No está del todo claro por qué Microsoft necesitaría crear otro LLM porque ya ha realizado una inversión importante (10 mil millones de dólares) en OpenAI, cuyos modelos ChatGPT han dominado el panorama de la IA generativa hasta ahora. ¿Por qué Microsoft está construyendo MAI-1? El CTO de Microsoft, Kevin Scott, intentó restar importancia a la historia en una publicación en LinkedIn, al tiempo que aparentemente confirmaba que la compañía sí tiene un modelo llamado MAI. Resumamos lo obvio: construimos grandes supercomputadoras para entrenar modelos de IA; nuestro socio Open AI utiliza estas supercomputadoras para entrenar modelos que definen fronteras; y luego ambos hacemos que estos modelos estén disponibles en productos y servicios para que mucha gente pueda beneficiarse de ellos. Nos gusta más bien este acuerdo”, dijo. Scott dijo que cada supercomputadora construida para OpenAI es mucho más grande que la que la precedió, y cada modelo de frontera que entrenan es mucho más poderoso que sus predecesores. “Seguiremos siendo en este camino: construir supercomputadoras cada vez más poderosas para Open AI para entrenar los modelos que marcarán el ritmo de todo el campo, en el futuro. No se vislumbra un final para el impacto cada vez mayor que tendrá nuestro trabajo conjunto”, dijo. Scott dijo que Microsoft también ha construido sus propios modelos de IA “durante años y años y años”, y dijo que los modelos de IA se utilizan en casi todos de los productos, servicios y procesos operativos de Microsoft. “Los equipos que crean y operan cosas en ocasiones necesitan hacer su propio trabajo personalizado, ya sea entrenar un modelo desde cero o ajustar un modelo que alguien más ha construido. También habrá más de esto en el futuro. Algunos de estos modelos tienen nombres como Turing y MAI. Algunos, como Phi, por ejemplo, incluso tenemos código abierto”, dijo. ¿Son los LLM el único juego que existe? No todos los modelos de IA tienen que tener un recuento de parámetros gigantesco. Microsoft presentó recientemente Phi-3, un modelo de lenguaje pequeño que, según dijo, es capaz de superar a los modelos del mismo tamaño y del siguiente tamaño en una variedad de puntos de referencia de lenguaje, razonamiento, codificación y matemáticas, y podría ser una opción más práctica para los clientes. buscando crear aplicaciones de IA generativa. Crear un LLM con una gran cantidad de parámetros es solo una parte de la historia; Las empresas de inteligencia artificial también compiten por asegurar las mejores fuentes de datos para entrenar sus herramientas de inteligencia artificial generativa. Esta semana OpenAI anunció un acuerdo con Stack Overflow para utilizar los millones de preguntas y respuestas publicadas por los desarrolladores en el sitio de conocimiento para mejorar las respuestas de ChatGPT.