Latam-GPT es un nuevo modelo de lenguaje grande que se está desarrollando en y para América Latina. The project, led by the nonprofit Chilean National Center for Artificial Intelligence (CENIA), aims to help the region achieve technological independence by developing an open source AI model trained on Latin American languages ​​and contexts.“This work cannot be undertaken by just one group or one country in Latin America: It is a challenge that requires everyone’s participation,” says Álvaro Soto, director of CENIA, in an interview with WIRED en Español. «Latam-GPT es un proyecto que busca crear un modelo de IA abierto, gratuito y, sobre todo, colaborativo. Hemos estado trabajando durante dos años con un proceso muy ascendente, que reúne a ciudadanos de diferentes países que desean colaborar. Recientemente, también ha visto algunas iniciativas más de arriba hacia abajo, con gobiernos con un interés y comenzando a participar en el proyecto». El proyecto se destaca por su espíritu colaborativo. «No estamos buscando competir con Openai, Deepseek o Google. Queremos un modelo específico para América Latina y el Caribe, consciente de los requisitos culturales y desafíos que esto implica, como comprender los diferentes dialectos, la historia de la región y los aspectos culturales únicos», explica Soto. Terabytes de texto, el equivalente de millones de libros. Esta base de información ha permitido el desarrollo de un modelo de lenguaje con 50 mil millones de parámetros, una escala que la hace comparable a GPT-3.5 y le brinda una capacidad media a alta para realizar tareas complejas como razonamiento, traducción y asociaciones. Se está capacitando en una base de datos regional que compila información de 20 países latinoamericanos y español, con un total impresionante de 2,64500 documentos. La distribución de datos muestra una concentración significativa en los países más grandes de la región, con Brasil el líder con 685,000 documentos, seguido de México con 385,000, España con 325,000, Colombia con 220,000 y Argentina con 210,000 documentos. Los números reflejan el tamaño de estos mercados, su desarrollo digital y la disponibilidad de contenido estructurado. «Inicialmente, lanzaremos un modelo de idioma. Esperamos que su desempeño en las tareas generales sea cercana a los grandes modelos comerciales, pero con un rendimiento superior en temas específicos de América Latina. La idea es que, si le preguntamos sobre los temas relevantes para nuestra región, su conocimiento es mucho más profundo», explica Soto. El primer modelo es el punto de partida de un punto de partida más avanzado de la familia más avanzada de un punto más avanzado en el que se desarrolla más de la familia. Futuro, incluidos los de imagen y video, y para escalar a modelos más grandes. «Como este es un proyecto abierto, queremos que otras instituciones puedan usarlo. Un grupo en Colombia podría adaptarlo para el sistema de educación escolar o una en Brasil podría adaptarlo para el sector de la salud. La idea es abrir la puerta para que las diferentes organizaciones generen modelos específicos para áreas particulares como la agricultura, la cultura y otros», explica el director de la Cenia.