Los modelos de lenguajes grandes (LLM) como GPT, Bard y Llama 2 han captado la imaginación del público y han generado una amplia variedad de reacciones. Este artículo analiza lo que hay detrás de todo esto para ayudarle a comprender los orígenes de los grandes modelos de lenguaje, cómo se construyen y entrenan, y la variedad de tareas para las que están especializados. También veremos los LLM más populares que se utilizan en la actualidad. ¿Qué es un modelo de lenguaje grande? Los modelos de lenguaje se remontan a principios del siglo XX, pero los modelos de lenguaje grande (LLM) surgieron con fuerza después de que se introdujeron las redes neuronales. La arquitectura de red neuronal profunda Transformer, introducida en 2017, fue particularmente fundamental en la evolución de los modelos de lenguaje a los LLM. Los modelos de lenguaje grandes son útiles para una variedad de tareas, incluida la generación de texto a partir de un mensaje descriptivo, la generación y finalización de código, el resumen de texto. , traducción entre idiomas y aplicaciones de texto a voz y de voz a texto. Los LLM también tienen desventajas, al menos en su etapa de desarrollo actual. El texto generado suele ser mediocre y, a veces, cómicamente malo. Se sabe que los LLM inventan hechos, llamados alucinaciones, que pueden parecer razonables si no se sabe mejor. Las traducciones de idiomas rara vez son 100% precisas a menos que hayan sido examinadas por un hablante nativo, lo que generalmente solo se hace para frases comunes. El código generado a menudo tiene errores y, a veces, no tiene esperanzas de ejecutarse. Si bien los LLM generalmente están ajustados para evitar hacer declaraciones controvertidas o recomendar actos ilegales, es posible violar estas barreras mediante indicaciones maliciosas. El entrenamiento de modelos de lenguaje grandes requiere al menos un gran corpus de texto. Los ejemplos de capacitación incluyen 1B Word Benchmark, Wikipedia, Toronto Books Corpus, el conjunto de datos Common Crawl y repositorios públicos de código abierto de GitHub. Dos problemas potenciales con grandes conjuntos de datos de texto son la infracción de derechos de autor y la basura. La infracción de derechos de autor es actualmente objeto de múltiples demandas. La basura, al menos, se puede limpiar; un ejemplo de un conjunto de datos limpio es Colossal Clean Crawled Corpus (C4), un conjunto de datos de 800 GB basado en el conjunto de datos Common Crawl. Los modelos de lenguaje grandes se diferencian de los modelos de lenguaje tradicionales en que utilizan una red neuronal de aprendizaje profundo, un gran corpus de entrenamiento, y requieren millones o más de parámetros o pesos para la red neuronal. Junto con al menos un gran corpus de entrenamiento, los LLM requieren una gran cantidad de parámetros, también conocidos como pesos. El número de parámetros creció con el paso de los años, hasta que dejó de hacerlo. ELMo (2018) tiene 93,6 millones de parámetros; BERT (2018) se publicó en tamaños de parámetros de 100 millones y 340 millones; GPT (2018) utiliza 117 millones de parámetros; y T5 (2020) tiene 220 millones de parámetros. GPT-2 (2019) tiene 1.600 millones de parámetros; GPT-3 (2020) utiliza 175 mil millones de parámetros; y PaLM (2022) tiene 540 mil millones de parámetros. GPT-4 (2023) tiene 1,76 billones de parámetros. Más parámetros hacen que un modelo sea más preciso, pero los modelos con parámetros más altos también requieren más memoria y se ejecutan más lentamente. En 2023, comenzamos a ver algunos modelos relativamente más pequeños lanzados en múltiples tamaños: por ejemplo, Llama 2 viene en tamaños de 7 mil millones, 13 mil millones y 70 mil millones, mientras que Claude 2 tiene tamaños de parámetros de 93 mil millones y 137 mil millones. .Una historia de los modelos de IA para la generación de textoLos modelos lingüísticos se remontan a Andrey Markov, quien aplicó las matemáticas a la poesía en 1913. Markov demostró que en Eugene Onegin de Pushkin, la probabilidad de que apareciera un personaje dependía del personaje anterior y que, en general, las consonantes y las vocales tendían a alternarse. Hoy en día, las cadenas de Markov se utilizan para describir una secuencia de eventos en la que la probabilidad de cada evento depende del estado del anterior. El trabajo de Markov fue ampliado por Claude Shannon en 1948 para la teoría de las comunicaciones, y nuevamente por Fred Jelinek y Robert Mercer de IBM en 1985 para producir un modelo de lenguaje basado en validación cruzada (al que llamaron estimaciones eliminadas) y aplicado a grandes escalas en tiempo real. -reconocimiento de voz y vocabulario. Básicamente, un modelo de lenguaje estadístico asigna probabilidades a secuencias de palabras. Para ver rápidamente un modelo de lenguaje en acción, simplemente escriba algunas palabras en la Búsqueda de Google o en una aplicación de mensajes de texto en su teléfono, con la función de autocompletar activada. En 2000, Yoshua Bengio y sus coautores publicaron un artículo que detalla un modelo de lenguaje probabilístico neuronal en el que las redes neuronales reemplazan las probabilidades en un modelo de lenguaje estadístico, evitando la maldición de la dimensionalidad y mejorando las predicciones de palabras sobre un modelo de trigrama suavizado (entonces el estado del arte). entre un 20% y un 35%. La idea de modelos de lenguaje de redes neuronales autorregresivas de retroalimentación todavía se utiliza hoy en día, aunque los modelos ahora tienen miles de millones de parámetros y están entrenados en corpus extensos; de ahí el término «modelo de lenguaje grande». Los modelos de lenguaje han seguido creciendo con el tiempo, con el objetivo de mejorar el rendimiento. Pero ese crecimiento tiene desventajas. El artículo de 2021, Sobre los peligros de los loros estocásticos: ¿pueden los modelos de lenguaje ser demasiado grandes? , cuestiona si estamos yendo demasiado lejos con la tendencia de «cuanto más grande, mejor». Los autores sugieren sopesar primero los costos ambientales y financieros e invertir recursos en curar y documentar conjuntos de datos en lugar de ingerir todo lo que está en la web. tienen una variedad de tareas y objetivos y adoptan diversas formas. Por ejemplo, además de la tarea de predecir la siguiente palabra en un documento, los modelos de lenguaje pueden generar texto original, clasificar texto, responder preguntas, analizar sentimientos, reconocer entidades nombradas, reconocer voz, reconocer texto en imágenes y reconocer escritura a mano. La personalización de modelos de lenguaje para tareas específicas, generalmente utilizando conjuntos de entrenamiento complementarios de tamaño pequeño a mediano, se denomina ajuste fino. Algunas de las tareas intermedias que se incluyen en los modelos de lenguaje son las siguientes: Segmentación del corpus de entrenamiento en oraciones Tokenización de palabras Derivación Lematización (conversión a la raíz de la palabra) Etiquetado POS (parte del discurso) Identificación y (posiblemente) eliminación de palabras vacías Reconocimiento de entidad nombrada (NER) Clasificación de texto Fragmentación (dividir oraciones en frases significativas) Resolución de correferencia (encontrar todas las expresiones que se refieren a la misma entidad en un texto) Varias de ellas también son útiles como tareas o aplicaciones en sí mismas, como la clasificación de texto. Los modelos de lenguaje grandes se diferencian de los modelos de lenguaje tradicionales en que utilizan un aprendizaje profundo Red neuronal y un gran corpus de entrenamiento, y requieren millones o más de parámetros o pesos para la red neuronal. Entrenar un LLM es una cuestión de optimizar las ponderaciones para que el modelo tenga la tasa de error más baja posible para la tarea designada. Una tarea de ejemplo sería predecir la siguiente palabra en cualquier punto del corpus, normalmente de forma autosupervisada. Una mirada a los LLM más populares La reciente explosión de grandes modelos de lenguaje fue provocada por el artículo de 2017, Attention is All You Need, que presentó Transformer como «una nueva arquitectura de red simple… basada únicamente en mecanismos de atención, prescindiendo de la recurrencia». y convoluciones por completo”. Estos son algunos de los principales modelos de lenguajes grandes que se utilizan en la actualidad.

Source link