EDUARD MUZHEVSKYI / SCIENCE PHOTO LIBRARY/Getty ImagesGoogle está uniendo esfuerzos de colaboración para crear grandes modelos lingüísticos (LLM) que se adapten mejor a la población y la mezcla cultural del sudeste asiático. Su brazo de investigación trabajará con AI Singapore para mejorar los conjuntos de datos utilizados para entrenar, ajustar y evaluar modelos de IA en idiomas específicos de la región. La iniciativa, denominada Proyecto Idiomas del Sudeste Asiático en One Network Data (SEALD), tiene como objetivo «mejorar la conciencia del contexto cultural» en los LLM creados para la región, dijo AI Singapur en un comunicado el lunes. Además: Cinco formas de utilizar la IA de forma responsableLa agencia gubernamental añadió que la colaboración se centrará primero en indonesio, tailandés, tamil, filipino y birmano, y que los dos socios desarrollarán modelos de translocalización y traducción de forma conjunta. También desarrollarán herramientas para ayudar a escalar las capacidades de translocalización y las mejores prácticas para ajustar conjuntos de datos. Se publicarán guías de formación previa para los idiomas del sudeste asiático. Todos los conjuntos de datos y resultados del Proyecto SEALD se publicarán en código abierto, añadió AI Singapore. La iniciativa respaldará aún más los esfuerzos de capacitación para modelos bajo SEA-LION (Lenguas del Sudeste Asiático en una Red), que la agencia gubernamental de Singapur lanzó el año pasado. Además: Los mejores chatbots de IA: ChatGPT y otras alternativas destacadas. La versión actual de SEA-LION, que consta de LLM de código abierto previamente capacitados para los matices sociales de la región, se ejecuta en dos modelos base: un modelo de tres mil millones de parámetros y un modelo de siete mil millones. modelo de parámetros. Sus datos de entrenamiento comprenden 981 mil millones de tokens de idiomas. AI Singapore define estos tokens como fragmentos de palabras creados a partir de la descomposición del texto durante la tokenización. Estos fragmentos incluyen 623 mil millones de tokens ingleses, 128 mil millones de tokens del sudeste asiático y 91 mil millones de tokens chinos. Actualmente, el Proyecto SEALD está trabajando en un caso de uso para mejorar las comunicaciones con los trabajadores migrantes en Singapur, quienes pueden conversar con mayor fluidez en varios idiomas regionales que en inglés. Los esfuerzos de recopilación de datos reflejarán rasgos lingüísticos únicos dentro de esta comunidad y proporcionarán la base para mejorar el compromiso entre el gobierno de Singapur y los empleadores. Los conjuntos de datos y los resultados del Proyecto SEALD se integrarán con aplicaciones de IA generativa desarrolladas por Google Cloud y el gobierno de Singapur, bajo la dirección de este último. Esquema AI Trailblazers, para apoyar el alcance comunitario. Los socios del Proyecto SEALD también trabajarán con la industria, incluidos el mundo académico y el sector público, en todas funciones, como la recopilación de datos y los controles de calidad. Estos esfuerzos incluirán la colaboración con el mundo académico en diferentes países del Sudeste Asiático para establecer metodologías para evaluar y comparar aplicaciones de IA generativa en toda la región. Además: ¿Quieres trabajar en IA? Cómo hacer girar su carrera en 5 pasosAI Singapur también planea hacer que los LLM de SEA-LION estén disponibles en Model Garden de Google Cloud en Vertex AI, brindando acceso a modelos de IA previamente verificados. Los LLM regionales se agregarán a Hugging Face, un repositorio de código abierto para herramientas de inteligencia artificial y modelos previamente entrenados centrados principalmente en capacidades de procesamiento del lenguaje natural. AI Singapur también anunció el lunes que firmó memorandos de entendimiento y cartas de intención con varias organizaciones en Indonesia, Malasia y Vietnam para desarrollar conjuntos de datos y aplicaciones para LLM regionales. Además, la agencia de Singapur dijo que está trabajando con socios en Indonesia, Tailandia y Filipinas para crear recursos sobre sintaxis y semántica de idiomas regionales. Entre ellos se incluyen el Instituto de Ciencia y Tecnología Vidyasirimedhi de Tailandia y el Laboratorio de Ciencias de Computación Social Ateneo de Filipinas. En 2022, Google Research dio a conocer una asociación con el Instituto Indio de Ciencias para trabajar en el Proyecto Vaani, cuyo objetivo es recopilar datos de voz anonimizados en 773 distritos y construir un LLM que represente a la diversa población del país. Además: ¿El ingeniero rápido está desplazando al científico de datos como el «trabajo más atractivo del siglo XXI»? La semana pasada, Laurence Liew, director de innovación en IA de AI Singapur, pidió a los actores de la IA generativa que incorporen modelos de datos regionales y locales para garantizar que sus productos reflejen mejor una diversidad poblacion mundial. La integración de SEA-LION, por ejemplo, ayudará a que las herramientas de inteligencia artificial generativa generen respuestas más precisas, dijo Liew, y señaló que el LLM regional generó una predicción más precisa en comparación con una plataforma pública global cuando se le preguntó sobre una reciente elección asiática. Las herramientas de IA generativa actuales no están centradas en Asia y pueden tener un sesgo de datos inherente. Los LLM como SEA-LION son más «culturalmente sensibles», lo que, según él, garantizará que las respuestas generativas generadas por la IA reflejen mejor la mezcla social de la región.

Source link