La evaluación comparativa de modelos de idiomas grandes presenta algunos desafíos inusuales. Por un lado, el objetivo principal de muchos LLM es proporcionar un texto convincente que sea indistinguible de la escritura humana. Y el éxito en esa tarea puede no correlacionarse con las métricas utilizadas tradicionalmente para juzgar el rendimiento del procesador, como la tasa de ejecución de instrucciones. Relacionado: la evaluación comparativa de LLM muestra que las capacidades se duplican cada 7 meses, pero hay razones sólidas para perseverar al intentar medir el rendimiento de LLMS. De lo contrario, es imposible saber cuantitativamente cuánto mejores LLM se están volviendo con el tiempo, y estimar cuándo podrían ser capaces de completar proyectos sustanciales y útiles por sí mismos. Los modelos de idiomas grandes son más desafiados por las tareas que tienen una puntuación alta de «desorden». Evaluación de modelos y la investigación de amenazas que fue una motivación clave detrás del trabajo en la evaluación del modelo y la investigación de amenazas (METR). La organización, con sede en Berkeley, California, «investiga, desarrolla y ejecuta evaluaciones de la capacidad de los sistemas de IA fronteriza para completar tareas complejas sin aportes humanos». En marzo, el grupo lanzó un artículo llamado Meding AI Capacidad para completar tareas largas, que alcanzó una conclusión sorprendente: según una métrica que ideó, las capacidades de los LLM clave están duplicando cada siete meses. Esta realización lleva a una segunda conclusión, igualmente impresionante: para 2030, los LLM más avanzados deberían poder completar, con un 50 por ciento de confiabilidad, una tarea basada en software que lleva a los humanos un mes completo de semanas de trabajo de 40 horas. Y los LLM probablemente podrían hacer muchas de estas tareas mucho más rápido que los humanos, tomando solo días o incluso solo horas. Una LLM podría escribir una novela decente para 2030 tareas podría incluir iniciar una empresa, escribir una novela o mejorar enormemente una LLM existente. La disponibilidad de LLM con ese tipo de capacidad «vendría con enormes apuestas, tanto en términos de beneficios potenciales como de riesgos potenciales», escribió el investigador de IA Zach Stein-Perlman en una publicación de blog. En el corazón del trabajo de METR es una métrica que los investigadores idearon llamado «horizonte de tiempo de completación de tareas». Es la cantidad de tiempo que los programadores humanos tomarían, en promedio, hacer una tarea que un LLM puede completar con algún grado específico de confiabilidad, como el 50 por ciento. Una trama de esta métrica para algunos LLM de propósito general que se remonta varios años [main illustration at top] muestra un claro crecimiento exponencial, con un período de duplicación de aproximadamente siete meses. Los investigadores también consideraron el factor de «desorden» de las tareas, siendo las tareas «desordenadas» las que se parecen más al «mundo real», según la investigadora de MET Megan Kinniment. Las tareas más desordenadas fueron más desafiantes para los LLM [smaller chart, above]. Si la idea de que LLM se mejore, te parece que tiene una cierta calidad de singularidad-sobocalipsis, Kinniment no estaría en desacuerdo contigo. Pero ella agrega una advertencia: «Podrías obtener una aceleración bastante intensa y hace que las cosas sean significativamente más difíciles de controlar sin necesariamente, lo que resulta en este crecimiento masivamente explosivo», dice ella. Es muy posible, agrega, que varios factores podrían retrasar las cosas en la práctica. «Incluso si fuera el caso que tuviéramos un IA muy, muy inteligente, este ritmo de progreso aún podría terminar con un cuello de botella en cosas como hardware y robótica». De los artículos de su sitio, artículos relacionados con la web