
题目:Memento: Fine-tuning LLM Agents without Fine-tuning LLMs
论文地址:https://arxiv.org/pdf/2508.16153
主页:https://github.com/Agent-on-the-Fly/Memento.

创新点
Memento 通过基于记忆的在线强化学习,实现了无需对底层大语言模型(LLM)进行微调的持续适应。这种方法避免了传统方法中对 LLM 参数的直接更新,降低了计算成本,同时提高了模型的灵活性和适应性。
将 LLM 代理的行为建模为一个记忆增强的马尔可夫决策过程,通过神经案例选择策略来指导行动决策。这种方法允许代理在不更新 LLM 参数的情况下,通过记忆中的案例进行学习和推理。
Memento 提供了两种记忆机制,非参数化记忆通过相似度检索来选择案例,而参数化记忆则通过学习一个 Q 函数来优化案例选择。这两种机制的结合使得 Memento 在不同的任务和场景下都能表现出色。
方法
本文提出了一种名为 Memento 的新型学习范式,旨在无需对底层大语言模型(LLM)进行微调的情况下,实现 LLM 代理的持续适应和在线学习。Memento 的核心思想是通过基于记忆的在线强化学习,利用案例推理(Case-Based Reasoning, CBR)来指导代理的行为决策。具体来说,Memento 将代理的行为建模为一个记忆增强的马尔可夫决策过程(Memory-augmented Markov Decision Process, M-MDP),并引入了一个案例银行(Case Bank)来存储过去的轨迹,包括成功和失败的案例。这些案例在后续的决策中被检索和利用,从而实现持续的策略改进。
Memento 评估概览

本图展示了 Memento 在不同基准测试(GAIA、DeepResearcher、SimpleQA 和 HLE)上的性能评估结果。图中分为三个部分,分别展示了 Memento 与基线方法的对比、不同记忆设计的对比以及在分布外(OOD)任务上的性能提升。
Memento 的记忆增强马尔可夫决策过程(M-MDP)

本图以图形化的方式展示了 Memento 的记忆增强马尔可夫决策过程(M-MDP)。这个图是理解 Memento 如何通过记忆和案例推理来实现持续学习和决策的关键。图中展示了 M-MDP 的各个组成部分,包括状态空间(𝒜?)、动作空间(𝒜)、转移动态(𝒜?)、奖励函数(ℛ)、折扣因子(γ)和记忆空间(ℳ)。状态空间表示代理当前的状态,可以是任务指令或其他上下文信息。
Memento 架构

本图展示了 Memento 的整体架构,包括规划器、执行器和案例银行。这个图是理解 Memento 如何在实际应用中实现规划、执行和记忆管理的关键。图中展示了 Memento 的规划器-执行器架构如何与案例银行和外部工具交互,从而实现复杂的任务执行。规划器由 LLM 驱动,负责生成任务的分解计划。规划器从案例银行中检索相关的案例,并利用这些案例生成具体的计划。规划器的作用是将复杂任务分解为一系列可执行的子任务,并为每个子任务生成详细的指令。执行器负责执行规划器生成的计划,调用外部工具完成具体的子任务。执行器通过 MCP 协议与外部工具进行交互,支持多种工具的灵活调用和组合。执行器的作用是将规划器生成的指令转化为实际的操作,并与外部环境进行交互。案例银行存储了过去的轨迹,包括成功和失败的案例。
实验

本表展示了 Memento 在多个基准测试上的性能,与不同的方法进行了比较。这些方法包括基于提示(Prompt Based)和基于训练(Training Based)的方法。表中报告了在七个开放域问答(QA)数据集上的 F1 分数和部分匹配(PM)分数,并给出了加权平均值。从表中可以看出,Memento 在这些基准测试中表现优异。例如,在 DeepResearcher 数据集上,Memento 达到了 66.6% 的 F1 分数和 80.4% 的 PM 分数,显著高于其他方法。这表明 Memento 在处理需要实时网络研究、证据检索、跨页面综合和多跳推理的任务时具有很强的能力。本表通过详细的性能比较,展示了 Memento 在多个基准测试上的优势,特别是在处理复杂任务和提高泛化能力方面。
-- END --

关注“学姐带你玩AI”公众号,回复“2025大模型”
领取2025大模型创新方案合集+开源代码
