创新点

Memento 通过基于记忆的在线强化学习，实现了无需对底层大语言模型（LLM）进行微调的持续适应。这种方法避免了传统方法中对 LLM 参数的直接更新，降低了计算成本，同时提高了模型的灵活性和适应性。
将 LLM 代理的行为建模为一个记忆增强的马尔可夫决策过程，通过神经案例选择策略来指导行动决策。这种方法允许代理在不更新 LLM 参数的情况下，通过记忆中的案例进行学习和推理。
Memento 提供了两种记忆机制，非参数化记忆通过相似度检索来选择案例，而参数化记忆则通过学习一个 Q 函数来优化案例选择。这两种机制的结合使得 Memento 在不同的任务和场景下都能表现出色。

方法

本文提出了一种名为 Memento 的新型学习范式，旨在无需对底层大语言模型（LLM）进行微调的情况下，实现 LLM 代理的持续适应和在线学习。Memento 的核心思想是通过基于记忆的在线强化学习，利用案例推理（Case-Based Reasoning, CBR）来指导代理的行为决策。具体来说，Memento 将代理的行为建模为一个记忆增强的马尔可夫决策过程（Memory-augmented Markov Decision Process, M-MDP），并引入了一个案例银行（Case Bank）来存储过去的轨迹，包括成功和失败的案例。这些案例在后续的决策中被检索和利用，从而实现持续的策略改进。

Memento 评估概览

本图展示了 Memento 在不同基准测试（GAIA、DeepResearcher、SimpleQA 和 HLE）上的性能评估结果。图中分为三个部分，分别展示了 Memento 与基线方法的对比、不同记忆设计的对比以及在分布外（OOD）任务上的性能提升。

Memento 的记忆增强马尔可夫决策过程（M-MDP）

本图以图形化的方式展示了 Memento 的记忆增强马尔可夫决策过程（M-MDP）。这个图是理解 Memento 如何通过记忆和案例推理来实现持续学习和决策的关键。图中展示了 M-MDP 的各个组成部分，包括状态空间（𝒜?）、动作空间（𝒜）、转移动态（𝒜?）、奖励函数（ℛ）、折扣因子（γ）和记忆空间（ℳ）。状态空间表示代理当前的状态，可以是任务指令或其他上下文信息。

Memento 架构

本图展示了 Memento 的整体架构，包括规划器、执行器和案例银行。这个图是理解 Memento 如何在实际应用中实现规划、执行和记忆管理的关键。图中展示了 Memento 的规划器-执行器架构如何与案例银行和外部工具交互，从而实现复杂的任务执行。规划器由 LLM 驱动，负责生成任务的分解计划。规划器从案例银行中检索相关的案例，并利用这些案例生成具体的计划。规划器的作用是将复杂任务分解为一系列可执行的子任务，并为每个子任务生成详细的指令。执行器负责执行规划器生成的计划，调用外部工具完成具体的子任务。执行器通过 MCP 协议与外部工具进行交互，支持多种工具的灵活调用和组合。执行器的作用是将规划器生成的指令转化为实际的操作，并与外部环境进行交互。案例银行存储了过去的轨迹，包括成功和失败的案例。

实验

本表展示了 Memento 在多个基准测试上的性能，与不同的方法进行了比较。这些方法包括基于提示（Prompt Based）和基于训练（Training Based）的方法。表中报告了在七个开放域问答（QA）数据集上的 F1 分数和部分匹配（PM）分数，并给出了加权平均值。从表中可以看出，Memento 在这些基准测试中表现优异。例如，在 DeepResearcher 数据集上，Memento 达到了 66.6% 的 F1 分数和 80.4% 的 PM 分数，显著高于其他方法。这表明 Memento 在处理需要实时网络研究、证据检索、跨页面综合和多跳推理的任务时具有很强的能力。本表通过详细的性能比较，展示了 Memento 在多个基准测试上的优势，特别是在处理复杂任务和提高泛化能力方面。

-- END --

最后对大模型创新感兴趣的可公众号后台私信‘加群’或者扫描下方👇二维码进入大模型交流群！

关注“学姐带你玩AI”公众号，回复“2025大模型”

领取2025大模型创新方案合集+开源代码

往期推荐:

如何给大模型喂时序数据？基于LLMs的时间序列预测5大方法汇总

强化学习+大模型轻松发顶会！不要光想着LLM，OpenAI o1这样做才是对的

时间序列+预训练大模型！最新开源成果性能暴涨42.8%

结合创新！高性能小模型+热门大模型=王炸，8种策略教你拿下顶会顶刊！

完美融合！LLM大模型x知识图谱2024最新SOTA！(附代码)

ACCEPT

据说点赞的都Accept了！