从 ReasoningBank 到 MetaAgent,RL 未必是 Agent 自进化的必要解?

机器之心 2025-10-25 10:30

本文来自PRO会员通讯内容,文末关注「机器之心PRO会员」,查看更多专题解读。

从 ReasoningBank 到 MetaAgent,RL 未必是 Agent 自进化的必要解?图1

引言:在业内关于智能体自进化的探讨中,记忆系统的相关改进使智能体能够在任务间积累经验、复用推理,从而呈现出持续成长的特征。但是记忆并非自进化的全部,随着研究者在智能体元认知、自我诊断和架构重构等方向有了进一步思考,智能体自进化开启了多路线的探索模式。


目录

01. 当 RL 不再是自进化智能体的唯一答案,记忆工程是否有可能独挑大梁?

RL 优化智能体自进化之外,记忆系统带来了哪些新的实践应用突破?从无记忆到工作流记忆,再到 ReasoningBank,智能体记忆系统进化到了哪一步?...

02. 记忆系统不是终点,智能体自进化还藏着哪些被忽视的技术方向?

IML 能否让智能体真正实现「自我完善」?从 MetaAgent 到 POAD,目前智能体自进化摆脱人类设计的程度有多高?...


当 RL 不再是自进化智能体的唯一答案,记忆工程是否有可能独挑大梁?

1、近年来,人工智能领域不仅关注大语言模型的基础能力,也逐步开始探索能够在开放、动态环境中持续执行复杂任务的自进化智能体。

① 这要求 LLM Agent 在拥有较强的感知、推理和规划能力之外,还要具备终身学习和适应的能力,从而能够在真实世界部署中保持稳健性。

2、过去业内对于智能体自进化的探索主要围绕 RL 的相关优化展开,但目前越来越多的工作开始转向工程侧的记忆机制改进,尝试通过高效简易地设计记忆系统来促进智能体将推理转成可复用的记忆。

① 智能体可能在每个新任务中重复过去的错误,存在「经验遗忘」的情况,这限制了其在长期、复杂任务中的泛化能力和可靠性。

② 要实现智能体的自进化,就要让智能体不仅会「思考」,还能记得自己「如何思考」。

3、从记忆系统着手,将瞬时「思考」转化为可累积、可迁移的长期经验,这不仅让智能体会「思考」,还能记得自己「如何思考」。

4、今年 9 月,来自谷歌、UIUC 和耶鲁大学的研究者发表了主题为 ReasoningBank 的相关论文,其中将智能体的「记忆」本质上概括为从过去经验中学习和应用知识的方式,并将其发展进程划分为无记忆智能体(No Memory Agent)、轨迹记忆(Trajectory Memory)和工作流记忆(Workflow Memory)。[2-1]

① 无记忆智能体阶段,智能体在处理每个任务时,都会从一个「空白」状态开始,仅依赖预训练模型中固化的知识和当前任务的上下文信息。这会导致一些重复错误以及任务连贯性的缺失。

② 轨迹记忆阶段则将智能体与环境的完整交互序列,也就是「轨迹」存储下来。当遇到新任务时,系统会检索历史上相似的轨迹,并将其作为上下文信息(In-context Learning)提供给模型。这种机制的局限在于知识抽象层次较低,检索成本随着轨迹数量增加而指数级上升,且难以将经验泛化到结构不同的新任务。

③ 工作流记忆阶段则不再存储原始轨迹,而是从成功的轨迹中提取出可复用的、结构化的操作流程或模板。尽管提高了重复任务的效率,但这种机制的学习信号来源过于单一,无法从失败或低效的尝试中吸取教训,导致在面对环境或任务的微小变化时适应性较弱。

5、这些早期的记忆机制都停留在记录行为或流程的层面,无法实现高层级的知识抽象。针对这一挑战,提出 ReasoningBank 机制的研究者尝试将智能体记忆的抽象层次从「操作记录」和「程序模板」提升到「可泛化推理策略」的高度。[2-2]

6、ReasoningBank 的核心是结构化推理记忆单元(Memory Item)。与存储原始代码或操作日志不同,每个单元用来捕捉深层的战略洞察,通常包含标题、描述和内容三个关键字段。[2-2]

① 这种结构化的方法使得知识更具可读性、可迁移性,且能够跨任务和跨领域复用。

7、ReasoningBank 的运行依赖于一个无需外部监督的闭环学习过程,也就是自我判断反馈回路(Self-Aware Feedback Loop),该过程包括记忆检索、记忆构建和记忆整合机制。[2-2]

8、进一步地,研究者通过记忆感知测试时扩展(Memory-aware Test-Time Scaling, MaTTS)机制,确保了计算资源的增加能够转化为更丰富、更高质量的对比信号(成功的路径与失败的路径之间的差异),从而加速推理策略的提炼和积累。[2-2]

① 传统的测试时扩展(TTS)通常只是增加单次推理的计算量来提高准确性。MaTTS 则利用额外的计算资源来加速和多样化经验的生成(例如进行多路径并行推理,探索更多行动分支)。

② MaTTS 机制采用了经验规模化(Experience Scaling)这一新的 Scaling 维度,这意味着投资于计算资源不再仅仅是为了提高当前任务的稳健性,也可以用于优化 Agent 未来学习的能力。

③ 经测试,MaTTS 在网络浏览和软件工程等基准测试中,相对提高了高达 34.2%的有效性,并减少了 16%的交互步骤。

9、综上所述,ReasoningBank 机制减轻了对基础模型重复微调的成本,也支持更轻量、更快速的智能体适应性进化。


记忆系统不是终点,智能体自进化还藏着哪些被忽视的技术方向?

1、目前来看,记忆系统的改进是给予 AI 或智能体应用自进化体验的主流路线,但除此之外,业内研究人员从智能体内在的自我识别、外在的工具和策略辅助等机制着手,尝试探索自进化的其他技术路线。...


 关注👇🏻「机器之心PRO会员」,前往「收件箱」查看完整解读 
从 ReasoningBank 到 MetaAgent,RL 未必是 Agent 自进化的必要解?图2


更多往期专题解读内容,关注「机器之心PRO会员」服务号,点击菜单栏「收件箱」查看。

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
ASO
more
清华最新综述!迈向Deep Reasoning的Agentic RAG,200篇工作尽览~
Jason Wei也被小扎带走:思维链开创者、o1系列奠基人!这次真挖到OpenAI大动脉了
必要时才思考?微软Hybrid-Reasoning Model
从 ReasoningBank 到 MetaAgent,RL 未必是 Agent 自进化的必要解?
微软提出Reward Reasoning Model
里程碑!逻辑智能发布全球首个完全开源语音大模型框架LLaSO,语音AI迎来新纪元
HF每日论文: InternVL3.5、Visual-CoG、MV-RAG、T2I-ReasonBench
突发|思维链开山作者Jason Wei被曝加入Meta,机器之心独家证实:Slack没了
SciReasoner、Seedream 4、Hunyuan3D-Omni技术报告|今日HF论文20篇
直击科学计算与设计痛点,跨学科推理统一基座模型SciReasoner来了
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号