En un intento por mejorar las capacidades de razonamiento de los modelos de lenguaje grandes (LLM), investigadores de Google Deepmind y la Universidad del Sur de California han propuesto un nuevo marco de estímulo de «autodescubrimiento». Publicado en arXiV y Hugging Face esta mañana, el enfoque va más allá de las técnicas de indicación existentes utilizadas por los LLM y se ha descubierto que es capaz de mejorar el rendimiento de modelos conocidos, incluidos GPT-4 de OpenAI y PaLM 2 de Google. “El autodescubrimiento mejora sustancialmente El rendimiento de GPT-4 y PaLM 2 en puntos de referencia de razonamiento desafiantes como BigBench-Hard, razonamiento de agente fundamentado y MATH aumentó hasta en un 32% en comparación con Chain of Thought (CoT)”, escriben los investigadores en el artículo. El marco gira en torno a las estructuras de razonamiento intrínsecas de tareas que los LLM descubren por sí mismos para resolver un problema. Los modelos analizan múltiples módulos de razonamiento atómico, como el pensamiento crítico y el pensamiento paso a paso, y los componen en una estructura de razonamiento explícita que los LLM deben seguir durante la decodificación. Evento VB The AI ​​Impact Tour – Nueva York Estaremos en Nueva York el 29 de febrero en asociación con Microsoft para discutir cómo equilibrar los riesgos y las recompensas de las aplicaciones de IA. Solicite una invitación al evento exclusivo a continuación. Solicitar una invitación Lo más interesante es que este enfoque funciona con entre 10 y 40 veces menos cálculo de inferencia, algo que puede ser fantástico para las empresas. Estructuras únicas de autodescubrimiento. Los LLM han evolucionado para manejar numerosas tareas, gracias a su capacidad para seguir instrucciones, razonar y generar respuestas coherentes. Para que esto suceda, los modelos, impulsados ​​por una arquitectura transformadora, utilizan varias técnicas de estimulación inspiradas en teorías cognitivas sobre cómo los humanos razonan y resuelven problemas. Esto incluye cadenas de pensamiento de pocos intentos y de cero intentos, inspiradas en cómo resolvemos un problema paso a paso, indicaciones de descomposición de cómo dividimos un problema en múltiples subproblemas y indicaciones de retroceso de cómo reflexionamos sobre el problema. naturaleza de una tarea para establecer principios generales. Si bien todos estos métodos, en particular los de cadena de pensamiento, funcionan, todos funcionan haciendo una suposición previa implícita sobre cómo abordar una tarea determinada. Este enfoque, argumentan los investigadores, puede no ser el mejor, ya que cada tarea tiene una estructura intrínseca única y una técnica particular puede ser mejor para resolverla que otra. Con las últimas investigaciones, los investigadores de Deepmind y la USC han propuesto un marco de incitación general que descubre por sí mismo esta estructura subyacente única para elegir la técnica de razonamiento adecuada para la tarea y, al mismo tiempo, es eficiente. “El autodescubrimiento se inspira en cómo los humanos diseñan internamente un programa de razonamiento para la resolución de problemas. A partir de un conjunto de módulos de razonamiento atómico descritos en lenguaje natural como ‘descomponerse en subtareas’ y ‘pensamiento crítico’, un LLM y ejemplos de tareas sin etiquetas, se compone una estructura de razonamiento coherente intrínseca a la tarea (Etapa 1) y luego resuelve instancias de la tarea utilizando la estructura descubierta (Etapa 2). La etapa 1 opera a nivel de tarea y utiliza tres acciones para guiar al LLM a generar una estructura de razonamiento para la tarea. En la Etapa 2, durante la decodificación final, el LLM simplemente sigue la estructura autodescubierta para llegar a la respuesta final”, explican los investigadores. Mejoras notables en el rendimiento de los LLM conocidos. Para ver cómo funciona el nuevo enfoque, los investigadores lo probaron con múltiples modelos, incluidos GPT-4 y PaLM 2-L, en 25 tareas de razonamiento, incluidas Big-Bench Hard, Thinking for Doing y Math. En 21 de 25 tareas, se descubrió que el autodescubrimiento superaba al razonamiento en cadena de pensamientos y otras técnicas, con ganancias de rendimiento de hasta un 32%. Los investigadores también descubrieron que funcionó mejor en términos de eficiencia al requerir de 10 a 40 veces menos cálculo de inferencia. Según los datos compartidos en el documento, al trabajar con GPT-4, el enfoque de autodescubrimiento logró resultados con una precisión del 81%, 85% y 73% en las tareas Big-Bench Hard, Thinking for Doing y Math, respectivamente. Sin embargo, cuando se trabajó con cadena de pensamiento, los resultados cayeron al 75%, 52% y 71%, respectivamente. Se observó una brecha casi similar cuando se comparó con el enfoque de planificar y resolver. Por otro lado, PaLM 2-L logró resultados con una precisión del 67 %, 69 % y 50,5 % en las tres tareas. Esto es menor que el de GPT-4, pero aún mucho mejor que lo que se logró con los enfoques de cadena de pensamiento (60%, 40% y 42%) y planificar y resolver (61%, 42% y 49%). . Mejorar el razonamiento es clave para el éxito de la IA. Si bien se acaba de proponer la idea de un marco de estímulo de autodescubrimiento, tiene el potencial de ampliar los límites de la resolución de problemas y brindar a los LLM la capacidad de abordar problemas desafiantes con facilidad, avanzando en última instancia hacia la objetivo de la inteligencia general. En particular, los estudios de transferibilidad realizados por los investigadores muestran que las estructuras de razonamiento compuestas son universalmente aplicables en todas las familias de modelos y comparten puntos en común con los patrones de razonamiento humano. «De cara al futuro, estamos entusiasmados de explorar más sobre el razonamiento estructurado de LLM para ampliar los límites de la resolución de problemas y descubrir potenciales para la colaboración entre humanos y IA», agregó el equipo. La misión de VentureBeat es ser una plaza digital para que los tomadores de decisiones técnicas adquieran conocimientos sobre tecnología empresarial transformadora y realicen transacciones. Descubra nuestros Briefings.

Source link