El nuevo marco de memoria crea agentes de inteligencia artificial que pueden manejar la imprevisibilidad del mundo real.

Investigadores en Universidad de Illinois Urbana-Champaign y Investigación de IA en la nube de Google Desarrolló un marco que permite a los agentes del modelo de lenguaje grande (LLM) organizar sus experiencias en un banco de memoria, ayudándolos a mejorar en tareas complejas con el tiempo.
Marco, llamado banco de razonamientoextrae “estrategias de inferencia generalizables” de los intentos exitosos y fallidos de un agente para resolver problemas. Luego, el agente utiliza esta memoria durante el razonamiento para evitar repetir errores del pasado y tomar mejores decisiones ante nuevos problemas. Los investigadores muestran que cuando se combina con… Técnicas de medición del tiempo de prueba.Cuando un agente hace múltiples intentos para resolver un problema, ReasoningBank mejora significativamente el rendimiento y la eficiencia de los agentes de LLM.
Sus hallazgos muestran que ReasoningBank supera consistentemente los mecanismos de memoria clásicos en la navegación web y en los puntos de referencia de ingeniería de software, proporcionando un camino práctico hacia la creación de agentes de IA más adaptables y confiables para aplicaciones empresariales.
El desafío de la memoria del agente LLM
Como los agentes LLM se implementan en aplicaciones que se ejecutan durante períodos prolongados, se enfrentan a un flujo continuo de tareas. Una limitación importante de los LLM actuales es que no aprenden de esta experiencia acumulada. Al abordar cada tarea individualmente, inevitablemente repiten errores del pasado, ignoran conocimientos valiosos de problemas relacionados y no logran desarrollar habilidades que los harían más capaces con el tiempo.
La solución a esta limitación es dar a los agentes algún tipo de memoria. Los esfuerzos anteriores para dotar a los agentes de memoria se han centrado en almacenar interacciones pasadas para su reutilización organizando la información en diversas formas, desde texto plano hasta gráficos estructurados. Sin embargo, estos métodos a menudo se quedan cortos. Muchos de ellos utilizan registros de interacción sin procesar o simplemente almacenan ejemplos de tareas exitosas. Esto significa que no pueden extraer patrones de pensamiento transferibles de alto nivel y, lo que es más importante, no extraen ni utilizan información valiosa de los fallos del agente. Como señalan los investigadores en su artículo, «los diseños de memoria actuales a menudo se limitan al mantenimiento pasivo de registros en lugar de proporcionar pautas aplicables y generalizables para la toma de decisiones futuras».
¿Cómo funciona Reasoning Bank?
ReasoningBank es un marco de memoria diseñado para superar estas limitaciones. Su idea central es extraer estrategias útiles y sugerencias lógicas de experiencias pasadas y convertirlas en elementos de memoria estructurados que puedan almacenarse y reutilizarse.
Según Jun Yan, investigador científico de Google y coautor del artículo, esto representa un cambio fundamental en la forma en que trabajan los agentes. "Los agentes tradicionales operan de forma estática y cada tarea se procesa individualmente." Yan explicó. "ReasoningBank cambia esto al convertir cada experiencia significativa (exitosa o fallida) en una memoria de razonamiento organizada y reutilizable. Como resultado, el agente no comienza desde cero con cada cliente; Recuerda y adapta estrategias probadas de situaciones similares anteriores."
El marco aborda experiencias exitosas y fallidas y las convierte en un conjunto de estrategias útiles y lecciones preventivas. El agente juzga el éxito y el fracaso por… Planes de LLM como juez Para evitar la necesidad de etiquetado humano.
Yan ofrece un ejemplo práctico de este proceso en acción. Un distribuidor encargado de encontrar auriculares Sony puede fracasar porque su consulta de búsqueda amplia arroja más de 4.000 productos no relacionados. "ReasoningBank intentará primero descubrir por qué fracasó este enfoque," Dijo Yan. "Luego, se extraerán estrategias como «refinar su consulta de búsqueda» y «limitar productos a filtros de categorías». Estas estrategias serán muy útiles para completar con éxito futuras tareas similares."
El proceso funciona en un circuito cerrado. Cuando un agente encuentra una nueva tarea, utiliza una búsqueda basada en incrustaciones para recuperar recuerdos relevantes del ReasoningBank para guiar sus acciones. Estos recuerdos se insertan en el sistema del cliente, proporcionando contexto para el proceso de toma de decisiones. Una vez que se completa una tarea, el marco crea nuevos elementos de memoria para extraer información de los éxitos y fracasos. Luego, este nuevo conocimiento se analiza, destila e integra en ReasoningBank, lo que permite al agente evolucionar y mejorar continuamente sus capacidades.
Memoria libre con escalado
Los investigadores han encontrado una fuerte sinergia entre la memoria y Escalando el tiempo de prueba. La medida clásica del tiempo de prueba implica generar múltiples respuestas independientes a la misma pregunta, pero los investigadores argumentan que «este formato básico no es óptimo porque no aprovecha la señal diferencial inherente que surge de la exploración redundante del mismo problema».
Para abordar este problema, proponen la Escala de tiempo de prueba consciente de la memoria (MaTTS), que integra la medida con ReasoningBank. MaTTS viene en dos formas. En el «escalamiento paralelo», el sistema crea múltiples caminos hacia la misma consulta, luego los compara y contrasta para identificar patrones consistentes de razonamiento. En el escalado secuencial, el agente mejora su razonamiento de forma iterativa durante un único intento, con retroalimentación y correcciones intermedias que también sirven como valiosas señales de memoria.
Esto crea un círculo virtuoso: la memoria en ReasoningBank guía al agente hacia soluciones más prometedoras, mientras que las diversas experiencias generadas a través de la expansión le permiten al agente crear recuerdos de mayor calidad para almacenar en ReasoningBank.
«Este circuito de retroalimentación positiva posiciona la expansión de la experiencia basada en la memoria como una nueva dimensión de medición para los agentes», escribieron los investigadores.
ReasoningBank en acción
Los investigadores probaron su marco en Web (navegar por la web) y SWE-Bench verificado (Ingeniería de Software) utilizando modelos como el Gemini 2.5 Pro de Google y el Claude 3.7 Sonnet de Anthropic. Compararon ReasoningBank con líneas de base que incluyen agentes sin memoria y agentes que utilizan marcos de memoria basados en rutas o flujos de trabajo.
Los resultados muestran que ReasoningBank supera consistentemente estas líneas de base en todos los conjuntos de datos y pilares de LLM. En WebArena, mejoró la tasa de éxito general hasta en 8,3 puntos porcentuales en comparación con el proxy sin memoria. También generalizaron mejor a tareas multidominio más difíciles, al tiempo que redujeron la cantidad de pasos de interacción necesarios para completar las tareas. Cuando se combina con MaTTS, las evaluaciones comparativas en paralelo y en serie mejoraron el rendimiento, superando constantemente el tiempo de referencia de prueba estándar.
Esta ganancia de eficiencia tiene un impacto directo en los costos operativos. Yan señala un caso en el que un agente sin memoria siguió ocho pasos de prueba y error sólo para encontrar el producto candidato adecuado en un sitio web. "Estos costos de prueba y error se pueden evitar aprovechando los conocimientos relevantes de ReasoningBank." Señaló. "En este caso, ahorramos casi el doble de costes operativos," Lo que también mejora la experiencia del usuario al resolver los problemas más rápido.
Para las empresas, ReasoningBank puede ayudar a desarrollar agentes rentables que puedan aprender de la experiencia y adaptarse con el tiempo en flujos de trabajo complejos y áreas como desarrollo de software, atención al cliente y análisis de datos. Como concluyó el estudio, «Nuestros hallazgos sugieren un camino práctico hacia el desarrollo de la resiliencia y el aprendizaje permanente».
Yan enfatizó que sus hallazgos apuntan a un futuro de verdadera inteligencia sintética. Por ejemplo, un agente de codificación puede aprender habilidades independientes, como la integración de API y la administración de bases de datos, a partir de tareas independientes. "Con el tiempo, estas habilidades modulares… se convierten en bloques de construcción que el agente puede volver a ensamblar de manera flexible para resolver tareas más complejas." dijo, sugiriendo un futuro en el que los agentes puedan combinar de forma autónoma sus conocimientos para gestionar flujos de trabajo completos con una mínima supervisión humana.