Los sistemas de inteligencia artificial como ChatGPT pronto podrían quedarse sin lo que los hace más inteligentes: las decenas de billones de palabras que la gente ha escrito y compartido en línea. Un nuevo estudio publicado el jueves por el grupo de investigación Epoch AI proyecta que las empresas de tecnología agotarán el suministro de datos de entrenamiento disponibles públicamente para modelos de lenguaje de IA aproximadamente hacia el cambio de década, en algún momento entre 2026 y 2032. Comparándolo con una «fiebre del oro literal». » que agota los recursos naturales finitos, Tamay Besiroglu, autor del estudio, dijo que el campo de la IA podría enfrentar desafíos para mantener su ritmo actual de progreso una vez que agote las reservas de escritura generada por humanos. En el corto plazo, empresas de tecnología como OpenAI, fabricante de ChatGPT, y Google están compitiendo para asegurar y, a veces, pagar, fuentes de datos de alta calidad para entrenar sus grandes modelos de lenguaje de IA, por ejemplo, firmando acuerdos para aprovechar el flujo constante de oraciones que llegan. fuera de foros de Reddit y medios de comunicación. A largo plazo, no habrá suficientes blogs nuevos, artículos de noticias y comentarios en las redes sociales para sostener la trayectoria actual de desarrollo de la IA, lo que presionará a las empresas para que aprovechen datos confidenciales que ahora se consideran privados (como correos electrónicos o mensajes de texto). confiando en “datos sintéticos” menos confiables escupidos por los propios chatbots. «Aquí hay un serio cuello de botella», dijo Besiroglu. “Si comienzas a enfrentar esas limitaciones sobre la cantidad de datos que tienes, entonces ya no podrás escalar tus modelos de manera eficiente. Y ampliar los modelos ha sido probablemente la forma más importante de ampliar sus capacidades y mejorar la calidad de su producción”. Los investigadores hicieron sus proyecciones por primera vez hace dos años, poco antes del debut de ChatGPT, en un documento de trabajo que pronosticaba un límite más inminente para 2026 de datos de texto de alta calidad. Mucho ha cambiado desde entonces, incluidas nuevas técnicas que permitieron a los investigadores de IA hacer un mejor uso de los datos que ya tienen y, a veces, «sobreentrenarse» en las mismas fuentes varias veces. Pero hay límites y, después de más investigaciones, Epoch ahora prevé quedarse sin datos de texto públicos en algún momento de los próximos dos a ocho años. El último estudio del equipo está revisado por pares y se presentará en la Conferencia Internacional sobre Aprendizaje Automático de este verano en Viena, Austria. Epoch es un instituto sin fines de lucro organizado por Rethink Priorities, con sede en San Francisco, y financiado por defensores del altruismo efectivo, un movimiento filantrópico que ha invertido dinero en mitigar los peores riesgos de la IA. Besiroglu dijo que los investigadores de IA se dieron cuenta hace más de una década de que expandir agresivamente dos ingredientes clave (potencia informática y grandes almacenes de datos de Internet) podría mejorar significativamente el rendimiento de los sistemas de IA. Según el estudio Epoch, la cantidad de datos de texto introducidos en los modelos de lenguaje de IA ha aumentado aproximadamente 2,5 veces por año, mientras que la informática ha crecido aproximadamente 4 veces por año. La empresa matriz de Facebook, Meta Platforms, afirmó recientemente que la versión más grande de su próximo modelo Llama 3, que aún no se ha lanzado, ha sido entrenada en hasta 15 billones de tokens, cada uno de los cuales puede representar una parte de una palabra. Pero es discutible hasta qué punto vale la pena preocuparse por el cuello de botella de datos. «Creo que es importante tener en cuenta que no necesariamente necesitamos entrenar modelos cada vez más grandes», dijo Nicolas Papernot, profesor asistente de ingeniería informática en la Universidad de Toronto e investigador del Vector Institute for Artificial Intelligence, una organización sin fines de lucro. Papernot, que no participó en el estudio de Epoch, dijo que la construcción de sistemas de IA más capacitados también puede provenir de modelos de entrenamiento que estén más especializados para tareas específicas. Pero le preocupa entrenar sistemas de IA generativa con los mismos resultados que están produciendo, lo que lleva a una degradación del rendimiento conocida como «colapso del modelo». La formación sobre datos generados por IA es “como lo que sucede cuando fotocopias una hoja de papel y luego fotocopias la fotocopia. Se pierde parte de la información”, dijo Papernot. No sólo eso, sino que la investigación de Papernot también ha descubierto que puede codificar aún más los errores, los prejuicios y la injusticia que ya están integrados en el ecosistema de la información. Si las oraciones reales elaboradas por humanos siguen siendo una fuente fundamental de datos de la IA, quienes administran los tesoros más buscados (sitios web como Reddit y Wikipedia, así como editores de noticias y libros) se han visto obligados a pensar detenidamente sobre cómo se utilizan. siendo utilizado. “Tal vez no se corten las cimas de todas las montañas”, bromea Selena Deckelmann, directora de productos y tecnología de la Fundación Wikimedia, que administra Wikipedia. «Es un problema interesante en este momento que estemos teniendo conversaciones sobre recursos naturales sobre datos creados por humanos. No debería reírme de ello, pero lo encuentro algo sorprendente». Si bien algunos han tratado de excluir sus datos del entrenamiento de IA (a menudo después de que ya se hayan tomado sin compensación), Wikipedia ha impuesto pocas restricciones sobre cómo las empresas de IA usan sus entradas escritas por voluntarios. Aún así, Deckelmann dijo que espera que siga habiendo incentivos para que la gente siga contribuyendo, especialmente a medida que una avalancha de “contenido basura” barato y generado automáticamente comienza a contaminar Internet. Las empresas de IA deberían «preocuparse por cómo el contenido generado por humanos continúa existiendo y siendo accesible», dijo. Desde la perspectiva de los desarrolladores de IA, el estudio de Epoch dice que pagar a millones de humanos para generar el texto que necesitarán los modelos de IA «es Es poco probable que sea una forma económica” de impulsar un mejor rendimiento técnico. Mientras OpenAI comienza a trabajar en la capacitación de la próxima generación de sus grandes modelos de lenguaje GPT, el CEO Sam Altman dijo a la audiencia en un evento de las Naciones Unidas el mes pasado que la compañía ya ha experimentado con “. «Creo que lo que se necesita son datos sintéticos de baja calidad», dijo Altman. datos sintéticos sobre otros métodos técnicos para mejorar los modelos de IA. «Sería algo muy extraño si la mejor manera de entrenar un modelo fuera simplemente generar, como, un billón de tokens de datos sintéticos y retroalimentarlos», dijo Altman. «De alguna manera eso parece ineficiente». © Copyright 2024 The Associated Press. Reservados todos los derechos. Este material no puede publicarse, transmitirse, reescribirse ni redistribuirse sin permiso.