¿Quieres ideas más inteligentes en tu bandeja de entrada? Regístrese en nuestros boletines semanales para obtener solo lo que importa a los líderes de IA, datos y seguridad empresariales. Suscríbete ahora una nueva técnica de la Universidad de Zhejiang y Alibaba Group ofrece a los agentes de Modelo de lenguaje grande (LLM) una memoria dinámica, lo que los hace más eficientes y efectivos en tareas complejas. La técnica, llamada MEMP, proporciona a los agentes una «memoria de procedimiento» que se actualiza continuamente a medida que obtienen experiencia, al igual que cómo los humanos aprenden de la práctica. MEMP crea un marco de aprendizaje de por vida donde los agentes no tienen que comenzar desde cero para cada tarea nueva. En cambio, se vuelven progresivamente mejores y más eficientes a medida que encuentran nuevas situaciones en entornos del mundo real, un requisito clave para la automatización empresarial confiable. El caso de la memoria de procedimiento en agentes de IA LLM es prometedor para automatizar procesos comerciales complejos de varios pasos. Sin embargo, en la práctica, estas tareas de horario largo pueden ser frágiles. Los investigadores señalan que eventos impredecibles como problemas de red, cambios en la interfaz de usuario o esquemas de datos de cambio pueden descarrilar todo el proceso. Para los agentes actuales, esto a menudo significa comenzar de nuevo cada vez, lo que puede llevar mucho tiempo y costoso. Mientras tanto, muchas tareas complejas, a pesar de las diferencias de superficie, comparten puntos en común estructurales profundos. En lugar de volver a aprender estos patrones cada vez, un agente debe poder extraer y reutilizar su experiencia de éxitos y fallas pasadas, señalan los investigadores. Esto requiere una «memoria de procedimiento» específica, que en humanos es la memoria a largo plazo responsable de habilidades como escribir o andar en bicicleta, que se vuelven automáticas con la práctica. AI Scaling alcanza sus límites de potencia de límites, el aumento de los costos de los tokens y los retrasos de inferencia están remodelando Enterprise AI. Únase a nuestro salón exclusivo para descubrir cómo son los mejores equipos: convertir la energía en una ventaja estratégica arquitectando una inferencia eficiente para las ganancias de rendimiento real que desbloquean el ROI competitivo con sistemas de IA sostenibles asegura su lugar para mantenerse a la vanguardia: https://bit.ly/4mwgngo que comienza desde cero (arriba) frente a la memoria de procedimiento (fondo) (fuente: ARXIV) Los sistemas de agentes actuales a menudo carecen de esta capacidad. Su conocimiento de procedimiento generalmente está hecho a mano por los desarrolladores, almacenados en plantillas de inmediato rígidas o incrustadas dentro de los parámetros del modelo, que son costosos y lentos para actualizar. Incluso los marcos existentes acuáticos de memoria proporcionan solo abstracciones gruesas y no abordan adecuadamente cómo las habilidades deben construirse, indexar, corregir y eventualmente podarse sobre el ciclo de vida de un agente. En consecuencia, los investigadores señalan en su artículo: «No existe una forma de principios de cuantificar cuán eficientemente un agente evoluciona su repertorio de procedimientos o de garantizar que las nuevas experiencias mejoren en lugar de erosionar el rendimiento». Cómo MEMP funciona MEMP es un marco agnóstico de tareas que trata la memoria del procedimiento como un componente central para ser optimizado. Consiste en tres etapas clave que funcionan en un bucle continuo: construir, recuperar y actualizar la memoria. Los recuerdos se construyen a partir de las experiencias pasadas de un agente, o «trayectorias». Los investigadores exploraron el almacenamiento de estos recuerdos en dos formatos: acciones literales, paso a paso; o destilar estas acciones en abstracciones de nivel superior, similares a script. Para la recuperación, el agente busca en su memoria la experiencia pasada más relevante cuando se le da una nueva tarea. El equipo experimentó con diferentes métodos, dicha búsqueda vectorial, para que coincida con la descripción de la nueva tarea con consultas pasadas o extrayendo palabras clave para encontrar el mejor ajuste. El componente más crítico es el mecanismo de actualización. MEMP presenta varias estrategias para garantizar que evolucione la memoria del agente. A medida que un agente completa más tareas, su memoria se puede actualizar simplemente agregando la nueva experiencia, filtrándose solo para resultados exitosos o, más efectivamente, reflexionando sobre fallas para corregir y revisar la memoria original. MEMP Framework (Fuente: ARXIV) Este enfoque en la memoria dinámica y en evolución coloca la memoria dentro de un creciente campo de investigación destinado a hacer que los agentes de IA sean más confiables para las tareas a largo plazo. El trabajo es paralelo a otros esfuerzos, como MEM0, que consolida información clave de largas conversaciones en hechos estructurados y gráficos de conocimiento para garantizar la consistencia. Del mismo modo, A-MEM permite a los agentes crear y vincular de forma autónoma «notas de memoria» desde sus interacciones, formando una estructura de conocimiento compleja con el tiempo. Sin embargo, el coautor Runnan Fang destaca una distinción crítica entre MEMP y otros marcos. «MEM0 y A-MEM son excelentes obras … pero se centran en recordar contenido sobresaliente dentro de una sola trayectoria o conversación», comentó Fang a VentureBeat. En esencia, ayudan a un agente a recordar «qué» sucedió. «MEMP, por el contrario, se dirige a la memoria de procedimiento de trayectoria cruzada». Se centra en el conocimiento de «cómo hacer» que se puede generalizar en tareas similares, evitando que el agente vuelva a explorar desde cero cada vez. «Al destilar más allá de los flujos de trabajo exitosos en antecedentes de procedimiento reutilizables, MEMP aumenta las tasas de éxito y acorta los pasos», agregó Fang. «De manera crucial, también presentamos un mecanismo de actualización para que esta memoria de procedimiento siga mejorando, después de todo, la práctica también hace la perfección para los agentes». Superar el problema de ‘arranque en frío’ Si bien el concepto de aprender de las trayectorias pasadas es poderoso, plantea una pregunta práctica: ¿cómo un agente construye su memoria inicial cuando no hay ejemplos perfectos para aprender? Los investigadores abordan este problema de «inicio frío» con un enfoque pragmático. Fang explicó que los desarrolladores primero pueden definir una métrica de evaluación robusta en lugar de requerir una trayectoria perfecta de «oro» por adelantado. Esta métrica, que puede basarse en reglas o incluso otra LLM, califica la calidad del rendimiento de un agente. «Una vez que esa métrica está en su lugar, dejamos que los modelos de vanguardia exploren dentro del flujo de trabajo del agente y retengan las trayectorias que logran los puntajes más altos», dijo Fang. Este proceso inicia rápidamente un conjunto inicial de recuerdos útiles, lo que permite que un nuevo agente se ponga al día sin una programación manual extensa. MEMP en acción Para probar el marco, el equipo implementó MEMP además de los poderosos LLM como GPT-4O, Claude 3.5 Sonnet y Qwen2.5, evaluándolos en tareas complejas como las tareas domésticas en el punto de referencia de Alfworld y la búsqueda de información en Travel Planner. Los resultados mostraron que construir y recuperar la memoria procesal permitió a un agente destilar y reutilizar su experiencia previa de manera efectiva. Durante las pruebas, los agentes equipados con MEMP no solo lograron tasas de éxito más altas, sino que se volvieron mucho más eficientes. Eliminaron la exploración infructuosa y el juicio y el error, lo que llevó a una reducción sustancial tanto en el número de pasos como en el consumo de token requerido para completar una tarea. El uso de la memoria de procedimiento (derecha) ayuda a los agentes a lograr tareas en menos pasos y el uso de menos tokens (fuente: ARXIV) Uno de los hallazgos más significativos para las aplicaciones empresariales es que la memoria de procedimiento es transferible. En un experimento, la memoria de procedimiento generada por el potente GPT-4O se dio a un modelo mucho más pequeño, QWEN2.5-14B. El modelo más pequeño vio un impulso significativo en el rendimiento, mejorando su tasa de éxito y reduciendo los pasos necesarios para completar las tareas. Según Fang, esto funciona porque los modelos más pequeños a menudo manejan bien las acciones simples de un solo paso, pero se vacilan cuando se trata de planificación y razonamiento del horizonte largo. La memoria de procedimiento del modelo más grande llena efectivamente este vacío de capacidad. Esto sugiere que el conocimiento se puede adquirir utilizando un modelo de última generación, luego implementado en modelos más pequeños y más rentables sin perder los beneficios de esa experiencia. Hacia agentes verdaderamente autónomos al equipar a los agentes con mecanismos de actualización de la memoria, el marco MEMP les permite construir y refinar continuamente su conocimiento de procedimiento mientras operan en un entorno en vivo. Los investigadores encontraron que esto dotaba al agente un «dominio continuo y casi lineal de la tarea». Sin embargo, el camino hacia la autonomía completa requiere superar otro obstáculo: muchas tareas del mundo real, como producir un informe de investigación, carecen de una señal de éxito simple. Para mejorar continuamente, un agente necesita saber si hizo un buen trabajo. Fang dice que el futuro radica en el uso de LLM como jueces. «Hoy a menudo combinamos modelos poderosos con reglas hechas a mano para calcular los puntajes de finalización», señala. «Esto funciona, pero las reglas escritas a mano son frágiles y difíciles de generalizar». Un LLM-As-Judge podría proporcionar la retroalimentación matizada de supervisión necesaria para que un agente se autocorrija las tareas complejas y subjetivas. Esto haría que todo el circuito de aprendizaje sea más escalable y robusto, marcando un paso crítico para construir los trabajadores de IA resistentes, adaptables y verdaderamente autónomos necesarios para la automatización empresarial sofisticada. Insights diarias sobre casos de uso de negocios con VB diariamente Si desea impresionar a su jefe, VB Daily lo tiene cubierto. Le damos la cuenta interior de lo que las empresas están haciendo con la IA generativa, desde cambios regulatorios hasta implementaciones prácticas, por lo que puede compartir ideas para el ROI máximo. Lea nuestra Política de privacidad Gracias por suscribirse. Mira más boletines de VB aquí. Ocurrió un error.
Deja una respuesta