El programa LLMtime de la Universidad de Nueva York encuentra el siguiente evento probable en una secuencia de eventos, representados en cadenas de dígitos numéricos. Los programas de inteligencia artificial generativa de la Universidad de Nueva York, herramientas como ChatGPT, están en camino de producir muchos más tipos de resultados que solo texto, como ZDNET ha explorado con cierta profundidad. Una de las «modalidades» más importantes, como se las conoce, son los llamados datos de series de tiempo: datos que miden las mismas variables en diferentes momentos para detectar tendencias. Los datos en formato de serie temporal pueden ser importantes para cosas como el seguimiento del historial médico del paciente a lo largo del tiempo con las entradas realizadas por un médico en un gráfico. Hacer lo que se llama pronóstico de series de tiempo significa tomar los datos históricos y predecir lo que sucederá a continuación; por ejemplo: «¿Este paciente mejorará?» Además: ChatGPT parece estar confundido acerca de cuándo termina su conocimiento. Los enfoques tradicionales para los datos de series temporales implican software especialmente diseñado para ese tipo de datos. Pero ahora, la IA generativa está adquiriendo una nueva capacidad para manejar datos de series temporales de la misma manera que maneja preguntas de ensayo, generación de imágenes, codificación de software y otras tareas en las que ChatGPT y programas similares han sobresalido. En un nuevo estudio publicado este mes por Nate Gruver de la Universidad de Nueva York y colegas de la Universidad de Nueva York y Carnegie Mellon, el programa GPT-3 de OpenAI está entrenado para predecir el siguiente evento en una serie de tiempo similar a predecir la siguiente palabra en una oración. «Debido a que los modelos de lenguaje están diseñados para representar distribuciones de probabilidad complejas sobre secuencias, teóricamente son adecuados para el modelado de series de tiempo», escriben Gruver y su equipo en su artículo, «Los modelos de lenguaje grandes son pronosticadores de series de tiempo de tiro cero», publicado en el Servidor de preimpresión arXiv. «Los datos de series de tiempo normalmente toman exactamente la misma forma que los datos de modelado de lenguaje, como una colección de secuencias». El programa que crearon, LLMTime, es «extremadamente simple», escriben Gruver y su equipo, y capaz de «superar o igualar los datos creados específicamente». métodos de series de tiempo sobre una variedad de problemas diferentes de manera cero, lo que significa que LLMTime se puede usar sin ningún ajuste fino en los datos posteriores utilizados por otros modelos». Además: la IA generativa superará con creces lo que ChatGPT puede hacer. Aquí está todo sobre cómo avanza la tecnología. La clave para crear LLMTime fue que Gruver y su equipo repensaran lo que se llama «tokenización», la forma en que un modelo de lenguaje grande representa los datos en los que está trabajando. Los programas como GPT-3 tienen una forma determinada de ingresar palabras y caracteres, dividiéndolos en fragmentos que se pueden ingerir uno a la vez. Los datos de series temporales se representan como secuencias de números, como «123»; la serie temporal es solo el patrón en el que ocurren dichas secuencias de dígitos. Teniendo en cuenta esto, la tokenización de GPT-3 es problemática porque a menudo dividirá esas cadenas en agrupaciones incómodas. «Por ejemplo, el número 42235630 se tokeniza como [422, 35, 630] por el tokenizador GPT-3, y los cambios incluso de un solo dígito pueden dar como resultado una tokenización completamente diferente», relatan Gruver y su equipo. Para evitar esas agrupaciones incómodas, Gruver y el equipo crearon un código para insertar espacios en blanco alrededor de cada dígito de una secuencia de dígitos. , para que cada dígito se codifique por separado. Además: 3 formas en que la IA está revolucionando la forma en que las organizaciones de salud atienden a los pacientes. ¿Pueden ayudar los LLM como ChatGPT? Luego se pusieron a trabajar entrenando a GPT-3 para pronosticar la siguiente secuencia de dígitos en ejemplos del mundo real de Serie temporal. Cualquier serie temporal es una secuencia de cosas que ocurren una tras otra, como por ejemplo «El perro saltó del sofá y corrió hacia la puerta», donde hay un evento y luego otro. Un ejemplo de una serie real El conjunto de datos sobre el cual la gente quiere hacer predicciones sería predecir retiros en cajeros automáticos basándose en retiros históricos. Un banco estaría muy interesado en predecir tales cosas. La predicción de retiros en cajeros automáticos es, de hecho, uno de los desafíos de una competencia de series en tiempo real como el Concurso de Previsión de Inteligencia Computacional y Redes Neuronales Artificiales, organizado por la Universidad de Lancaster del Reino Unido. Ese conjunto de datos es simplemente cadenas y cadenas de números, en esta forma: T1: 1996-03-18 00-00-00: 13.4070294784581, 14.7250566893424, etc. La primera parte es obviamente la fecha y hora de «T1». representa el primer momento en el tiempo, y lo que sigue son cantidades (separadas por puntos, no por comas, como es el caso en la notación europea). El desafío para una red neuronal es predecir, dados miles o incluso millones de tales elementos, qué sucedería en el siguiente momento después del último ejemplo de la serie: cuánto retirarán los clientes mañana. La tecnología podría destruir GPT-4 y todo lo similar. Los autores relatan: «LLMTime no solo es capaz de generar finalizaciones plausibles de series de tiempo reales y sintéticas, sino que logra mayores probabilidades […] en evaluación de disparo cero que los modelos de series de tiempo dedicados […]» que se han creado durante décadas. El programa LLMtime encuentra dónde se encuentra un número en una distribución, un patrón distinto de recurrencia de números, para concluir si una secuencia representa uno de los patrones comunes, como el «exponencial» o el gaussiano. Universidad de Nueva YorkSin embargo Una de las limitaciones de los grandes modelos de lenguaje, señalan Gruver y su equipo, es que sólo pueden recibir una cantidad limitada de datos a la vez, lo que se conoce como «ventana de contexto». Para manejar series temporales cada vez más grandes, los programas Necesitamos ampliar esa ventana de contexto a muchos más tokens. Ese es un proyecto que están explorando numerosas partes, como el equipo Hyena de la Universidad de Stanford y el Instituto MILA de IA de Canadá y Microsoft, entre otros. Además: Microsoft y TikTok dan una especie de IA generativa de memoriaLa pregunta obvia es por qué un modelo de lenguaje grande debería ser bueno para predecir números. Como señalan los autores, para cualquier secuencia de números, como los retiros en cajeros automáticos, existen «arbitrariamente muchas reglas de generación que son consistentes con la entrada». Hay tantas razones por las que podrían aparecer esas cadenas de números particulares, que sería difícil adivinar cuál es la regla subyacente que las explica. La respuesta es que GPT-3 y similares encuentran las reglas que son las más simples entre todas las posibles. normas. «Los LLM pueden pronosticar de manera efectiva porque prefieren terminaciones derivadas de reglas simples, adoptando una forma de navaja de Occam», escriben Gruver y su equipo, refiriéndose al principio de parsimonia. A veces, el programa GPT-4 se desvía cuando intenta razonar cuál es el patrón de una serie temporal, lo que demuestra que en realidad no «entiende» la serie temporal en el sentido tradicional. Universidad de Nueva YorkEso no significa que GPT-3 realmente entienda lo que está pasando. En un segundo experimento, Gruver y su equipo enviaron a GPT-4 (el sucesor más poderoso de GPT-3) un nuevo conjunto de datos que crearon utilizando una función matemática particular. Le pidieron a GPT-4 que dedujera la función matemática que produjo la serie temporal, para responder a la pregunta, «si GPT-4 puede explicar en texto su comprensión de una serie temporal determinada», escriben Gruver y su equipo. Descubrieron que GPT-4 era capaz de adivinar la función matemática mejor que el azar, pero produjo algunas explicaciones que estaban fuera de lugar. «El modelo a veces hace deducciones incorrectas sobre el comportamiento de los datos que ha visto o el comportamiento esperado de las funciones candidatas». En otras palabras, incluso cuando un programa como GPT-4 puede predecir bien lo siguiente en una serie temporal, sus explicaciones terminan siendo «alucinaciones», la tendencia a ofrecer respuestas incorrectas. Además: ¿Implementar la IA en la ingeniería de software? Aquí encontrará todo lo que necesita saber. Gruver y su equipo están entusiasmados con la forma en que las series temporales encajan en un futuro multimodal para la IA generativa. «Enmarcar el pronóstico de series de tiempo como generación de lenguaje natural puede verse como otro paso hacia unificar más capacidades dentro de un único modelo grande y poderoso, en el que la comprensión se puede compartir entre muchas tareas y modalidades», escriben en su sección final. LLMTime está publicado en GitHub.

Source link