告别微调!华为提出自适应 LLM Agent 学习

学姐带你玩AI 2025-09-03 18:20
资讯配图

题目:Memento: Fine-tuning LLM Agents without Fine-tuning LLMs

论文地址:https://arxiv.org/pdf/2508.16153

主页:https://github.com/Agent-on-the-Fly/Memento.

资讯配图

创新点

  • Memento 通过基于记忆的在线强化学习,实现了无需对底层大语言模型(LLM)进行微调的持续适应。这种方法避免了传统方法中对 LLM 参数的直接更新,降低了计算成本,同时提高了模型的灵活性和适应性。

  • 将 LLM 代理的行为建模为一个记忆增强的马尔可夫决策过程,通过神经案例选择策略来指导行动决策。这种方法允许代理在不更新 LLM 参数的情况下,通过记忆中的案例进行学习和推理。

  • Memento 提供了两种记忆机制,非参数化记忆通过相似度检索来选择案例,而参数化记忆则通过学习一个 Q 函数来优化案例选择。这两种机制的结合使得 Memento 在不同的任务和场景下都能表现出色。

方法

本文提出了一种名为 Memento 的新型学习范式,旨在无需对底层大语言模型(LLM)进行微调的情况下,实现 LLM 代理的持续适应和在线学习。Memento 的核心思想是通过基于记忆的在线强化学习,利用案例推理(Case-Based Reasoning, CBR)来指导代理的行为决策。具体来说,Memento 将代理的行为建模为一个记忆增强的马尔可夫决策过程(Memory-augmented Markov Decision Process, M-MDP),并引入了一个案例银行(Case Bank)来存储过去的轨迹,包括成功和失败的案例。这些案例在后续的决策中被检索和利用,从而实现持续的策略改进。

Memento 评估概览

资讯配图

本图展示了 Memento 在不同基准测试(GAIA、DeepResearcher、SimpleQA 和 HLE)上的性能评估结果。图中分为三个部分,分别展示了 Memento 与基线方法的对比、不同记忆设计的对比以及在分布外(OOD)任务上的性能提升。

Memento 的记忆增强马尔可夫决策过程(M-MDP)

资讯配图

本图以图形化的方式展示了 Memento 的记忆增强马尔可夫决策过程(M-MDP)。这个图是理解 Memento 如何通过记忆和案例推理来实现持续学习和决策的关键。图中展示了 M-MDP 的各个组成部分,包括状态空间(𝒜?)、动作空间(𝒜)、转移动态(𝒜?)、奖励函数(ℛ)、折扣因子(γ)和记忆空间(ℳ)。状态空间表示代理当前的状态,可以是任务指令或其他上下文信息。

Memento 架构

资讯配图

本图展示了 Memento 的整体架构,包括规划器、执行器和案例银行。这个图是理解 Memento 如何在实际应用中实现规划、执行和记忆管理的关键。图中展示了 Memento 的规划器-执行器架构如何与案例银行和外部工具交互,从而实现复杂的任务执行。规划器由 LLM 驱动,负责生成任务的分解计划。规划器从案例银行中检索相关的案例,并利用这些案例生成具体的计划。规划器的作用是将复杂任务分解为一系列可执行的子任务,并为每个子任务生成详细的指令。执行器负责执行规划器生成的计划,调用外部工具完成具体的子任务。执行器通过 MCP 协议与外部工具进行交互,支持多种工具的灵活调用和组合。执行器的作用是将规划器生成的指令转化为实际的操作,并与外部环境进行交互。案例银行存储了过去的轨迹,包括成功和失败的案例。

实验

资讯配图

本表展示了 Memento 在多个基准测试上的性能,与不同的方法进行了比较。这些方法包括基于提示(Prompt Based)和基于训练(Training Based)的方法。表中报告了在七个开放域问答(QA)数据集上的 F1 分数和部分匹配(PM)分数,并给出了加权平均值。从表中可以看出,Memento 在这些基准测试中表现优异。例如,在 DeepResearcher 数据集上,Memento 达到了 66.6% 的 F1 分数和 80.4% 的 PM 分数,显著高于其他方法。这表明 Memento 在处理需要实时网络研究、证据检索、跨页面综合和多跳推理的任务时具有很强的能力。本表通过详细的性能比较,展示了 Memento 在多个基准测试上的优势,特别是在处理复杂任务和提高泛化能力方面。

-- END --


最后对大模型创新感兴趣的可公众号后台私信‘加群’或者扫描下方👇二维码进入大模型交流群!
资讯配图

关注“学姐带你玩AI”公众号,回复“2025大模型

领取2025大模型创新方案合集+开源代码

往期推荐:





如何给大模型喂时序数据?基于LLMs的时间序列预测5大方法汇总


强化学习+大模型轻松发顶会!不要光想着LLM,OpenAI o1这样做才是对的


时间序列+预训练大模型!最新开源成果性能暴涨42.8%


结合创新!高性能小模型+热门大模型=王炸,8种策略教你拿下顶会顶刊!


完美融合!LLM大模型x知识图谱2024最新SOTA!(附代码)



ACCEPT
据说点赞的都Accept了!
资讯配图

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
华为
more
华为 Mini 小平板,即将发布
华为再添 “ 绝界 ” 引热议,又憋大招?
【盖世快讯】余承东谈华为上汽合作细节;李斌称用户不买蔚来车30%-40%因担心倒闭
不到20万买后驱SUV,轴距2米9空间超实用,标配华为驾驶辅助!
华为突然开始卖二手Pura70,但这价格把我看傻了
华为再推全新机型!这是真想买,爆款预定了
华为小平板外观实拍给几分?| vivoX300官宣2亿新主摄
再造一辆问界M9!“华为满血”中大型SUV,5/6座可选,才20来万
华为汽车合作新模式曝光:车企主导,华为深度嵌入
华为突然官宣:新机上架,Pro+便宜1100元!
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号