El objetivo principal de muchos modelos de idiomas grandes (LLM) es proporcionar un texto convincente que sea lo más cercano posible a ser indistinguible de la escritura humana. Y ahí radica una razón importante por la que es tan difícil medir el rendimiento relativo de los LLM utilizando puntos de referencia tradicionales: la calidad de la escritura no necesariamente se correlaciona con las métricas que se utilizan tradicionalmente para medir el rendimiento del procesador, como la tasa de ejecución de instrucciones. Relacionados: los modelos de lenguaje grande están mejorando explosionalmente, sino que los investigadores de Berkeley, California, Tank Tank Metr (para la evaluación del modelo de Model y las amenazas) se han mejorado con una idea exponencialmente con una idea ingenencialmente. Primero, identifique una serie de tareas con una complejidad variable y registre el tiempo promedio que tarda un grupo de humanos en completar cada tarea. Luego, haga que varias versiones de LLM completen las mismas tareas, señalando casos en los que una versión de un LLM completa con éxito la tarea con cierto nivel de confiabilidad, digamos el 50 por ciento del tiempo. Los gráficos de los datos resultantes confirman que a medida que pasa el tiempo, las generaciones sucesivas de un LLM pueden completar de manera confiable tareas más y más largas (cada vez más complejas). No es una sorpresa allí. Pero el shock fue que esta mejora en la capacidad de los LLM para completar tareas más duras ha sido exponencial, con un período de duplicación de aproximadamente siete meses. Tan claro un exponencial como nosotros. Sin embargo, los modelos definitivamente han mejorado rápidamente. Por lo tanto, una tasa de progreso rápida no fue completamente inesperada. Como usted señala en el documento, siempre es peligroso mirar hacia el futuro y extrapolar. Sin embargo, usted sugiere que existe la probabilidad de que esto continúe, lo que significa que para 2030 consideraremos que las tareas de un mes están dentro de la capacidad de los modelos de lenguaje grande más avanzados. En un mes, nos referimos a alrededor de 167 horas de trabajo, por lo que el número de [human] horas de trabajo en un mes. Y eso es de 50 por ciento de confiabilidad. Pero las tareas más largas generalmente parecen requerir una mayor confiabilidad para ser realmente útil. Eso es algo que podría hacer que los impactos económicos en el mundo real, en el mundo real no sean tan intensos como lo que se predice. Hay una serie de cosas que tendrían que continuar para que esta predicción se haga realidad. El hardware tendría que seguir mejorando a aproximadamente la velocidad que está mejorando; El software tendría que seguir mejorando. Tendría que tener suficientes datos de entrenamiento y disponibilidad de esos datos de entrenamiento para continuar entrenando en el impresionante clip que ha estado ocurriendo en los últimos años. [The trends are] no tener en cuenta factores del mundo real o cambios en escala de cómputo. Si un modelo de lenguaje grande podría lograr de alguna manera la capacidad de completar tareas tipo de 167 horas con una confiabilidad del 50 por ciento, ¿cuáles son los tipos de cosas que ahora pone en el ámbito de la capacidad de un modelo de lenguaje grande? Kinniment: Bueno, el gran que a menudo pensamos es acelerar la investigación de I + D de I AI. En la medida en que puede hacer modelos que aceleran la capacidad de su empresa para hacer mejores modelos, podría terminar en una situación en la que las capacidades de IA se desarrollan realmente bastante rápido. Lo que significa que el crecimiento exponencial en la IA para la humanidad lo que está describiendo es una reminiscencia de la idea de la singularidad, donde usted tiene AIS creando otras AIS por su cuenta, no ayudadas por seres humanos. Hay razones para pensar que podría tener varios cuellos de botella que ralentizan las cosas en la práctica. Incluso si fuera el caso que tuviéramos un AIS muy, muy inteligente, este ritmo de progreso aún podría terminar cuello de botella en cosas como hardware y robótica. Pero sí, la singularidad es seguramente una idea relevante para todo este sector de las cosas. Las cosas podrían ir bastante rápido, pero no es como si fuera la singularidad o nada. [AI-development rates] Eso fue leve en comparación con una singularidad aún podría ser bastante intenso sobre cómo el mundo necesita adaptarse. Indicó en el documento que algunos modelos de idiomas grandes parecen estar mejorando en su capacidad para adaptarse y mejorar de los errores. Es menos probable que se atascen. Son un poco mejores para cambiar las estrategias cuando las cosas no funcionan, pero eso es un poco impredecible. Y definitivamente son mucho mejores para hacer las cosas de lo que solían ser y mejor en el uso de herramientas. Pero parece que hay algunos aspectos fundamentales que no han cambiado mucho. Una cosa que me gusta ver cuando obtengo un nuevo modelo es, en cada tarea, le damos al modelo una serie de tokens, una serie de palabras que puede decir. Y si pudieras imaginar darles más y más tiempo o más y más fichas para hacer una tarea, ¿cómo afecta eso a la probabilidad de que tengan éxito? Y básicamente, lo que vemos es que se estabilizan con bastante fuerza. Hay un punto en el que les das más fichas y realmente no ayuda. Y para cada nuevo modelo, esa meseta se vuelve un poco más alta. Megan Kinniment estaba en el equipo de Metr que publicó los resultados de un estudio del rendimiento de LLM.Megan Kinniment Humans, imagino, también tienen rendimientos decrecientes. Pero si le das a un humano mucho tiempo para hacer algo, probablemente harán un mejor trabajo, especialmente si tienes múltiples humanos. Y creo que estaría bastante impresionado con un modelo de idioma grande que, incluso si su puntaje absoluto fuera más bajo, parecía que podría seguir haciendo cosas y mejorando. Eso podría ser un gran problema. Descubrió que los modelos se desempeñaron peor en las tareas que tenían puntajes de «desorden» más altos. ¿Hubo alguna señal de que saliera de los datos que este estado de cosas podría estar cambiando? En otras palabras, esos modelos podrían estar ganando una mayor capacidad para manejar tareas que tenían una mayor desorden? Y la mayoría de nuestras tareas no son tan desordenadas. Es una escala de 16 puntos. La media es de aproximadamente 3, y las tareas más desordenadas son aproximadamente 8 de 16. Entonces, ¿cuál sería una tarea de 16 en términos de desorden? Kinniment: algo como el espionaje, donde tienes muchas limitaciones de recursos. Es muy castigador. Tienes agentes que están optimizando contra ti activamente. Es fácil equivocarse. Es novedoso. ¿Están todos planeando seguir este estudio? Kinniment: Openi publicó O3, y O3 fue un poco más capaz de lo previsto dada la tendencia. Por lo tanto, estamos haciendo cierta cantidad de seguimiento en términos de medir otros modelos. Queremos mantenernos enfocados en informar al mundo sobre el desarrollo de la IA y los riesgos catastróficos de los sistemas de IA. Quiero decir, los que me vienen a la mente son dislocaciones masivas en el empleo si la IA se vuelve supremamente capaz. Estamos hablando de cosas que son más como esta: si todos se desemplearon o simplemente no necesitaba trabajadores humanos para la gran mayoría de las cosas, es posible que no necesite trabajadores humanos para mantener a sus militares, o muchos menos humanos. Eso podría facilitar que alguien realice un golpe de estado, esencialmente. O, si tiene una gran cantidad de genios en un centro de datos, eso lo convertiría en una persona muy poderosa. Si usa eso para producir hardware militar, es posible que podamos obtener una concentración de poder, y es posible que ya no tenga un estado democrático. Todo esto sucedería, obviamente, sin ninguna forma de conciencia. Estas serían máquinas que tendrían la capacidad de planificar, planificar y planificar, pero sin el tipo de conciencia que caracteriza la capacidad humana para hacer esto. La conciencia no es necesaria para esto. No estoy seguro de si la conciencia es necesaria para algún comportamiento en particular. Se siente un poco por encima de mi grado salarial. También creo que no es una locura que puedan ser conscientes en este momento. Serían muy inteligentes. Entonces, crees que es posible que puedan ser conscientes en algún momento en el futuro? Kinniment: Quiero decir, si son tan inteligentes como tú y yo, entonces no parece muy loco. No parece una locura que no sean, y no parece una locura para ellos.
Deja una respuesta