清华大学:记忆驱动的 VLA 框架来了!复刻人类双记忆机制,长时序操作成功率达 96.5%

深蓝具身智能 2025-09-03 10:56

资讯配图

为什么机器人在执行“按下按钮”这类简单操作时,常常会反复按压、无法判断是否成功?

这是因为机器人操作任务本质上是非马尔可夫:当前观察并不足以决定接下来该做什么,过去的动作和上下文对未来决策至关重要。

这就导致了现有的视觉-语言-动作(VLA)模型,大多只依赖“当下的一帧观测”,缺乏对时间依赖的建模。这带来了几个显著问题:在长时序任务中表现不佳:

与此相对,人类操作任务高度依赖记忆系统,凭借情景记忆回溯经验,在操作中不断调取、整合、更新记忆。

本文介绍的由清华大学等团队提出的 MemoryVLA 模型,正在尝试为机器人植入这种“人类式的记忆系统”,让它们也能具备感知-认知联动记忆机制!

我们开设此账号,想要向各位对【具身智能】感兴趣的人传递最前沿最权威的知识讯息外,也想和大家一起见证它到底是泡沫还是又一场热浪?
欢迎关注【深蓝具身智能】👇

资讯配图

从短时反应到长期规划

受人类记忆系统的启发,研究者提出了MemoryVLA——一个融合“认知-记忆-动作”的新型框架。

其核心设计包括:

通过这一机制,MemoryVLA 不再是“短时反应的操作者”,而是具备“带记忆的推理者”。

实验显示,它在模拟环境(Bridge、Fractal、LIBERO)真实机器人任务(Franka、WidowX)上均取得显著提升,尤其在长时序任务上,相比现有方法提升超过+26个点

资讯配图

图1|机器人记忆的场景示例及本文研究动机:(a) 在推按钮(Push Buttons)任务中,按下前后的状态几乎完全相同,因此需要进行时间序列建模。(b) 人类在操作任务中依赖双重记忆系统:工作记忆(神经活动)负责短期控制,而情景记忆(海马体)则保留长期经验。(c) 受此启发,MemoryVLA 引入了一个“感知–认知记忆库”(Perceptual–Cognitive Memory Bank),用于整合低层次的感知细节与高层次的语义信息,从而实现对时间变化敏感的决策。(d) MemoryVLA 在性能上优于当前的多种先进基线方法©️【深蓝具身智能】编译

接下来,我们将解读 MemoryVLA 的核心方法设计:它是如何将记忆机制引入 VLA 模型、如何构建 PCMB,以及如何实现记忆驱动的动作生成。

资讯配图

MemoryVLA 的核心机制

总体框架

MemoryVLA 是一个端到端的机器人操作框架,它把视觉-语言-动作推理记忆机制结合在一起(见图2)

资讯配图

2MemoryVLA 的整体架构:RGB 观测图像和语言指令首先通过一个 7B 规模的视觉语言模型(VLM)编码为感知(perceptual)和认知(cognitive)两类 token,构成短期工作记忆(working memory)。工作记忆随后查询感知–认知记忆库(Perceptual-Cognitive Memory Bank,PCMB),从中检索与当前任务相关的历史上下文信息,包括高层语义和低层视觉细节。系统将检索到的历史信息与当前 token 自适应融合,并通过合并最相似的邻居样本不断更新和巩固 PCMB。最后,增强后的记忆驱动 token 用于条件化扩散式 Transformer(diffusion transformer),预测未来一系列动作序列©️【深蓝具身智能】编译

(1)视觉-语言模块将图像和指令转化为感知 token(细节特征)和认知 token(高层语义);

(2)这些 token 构成工作记忆,类似人脑短期记忆;

(3)工作记忆会去感知-认知记忆库(PCMB) 检索历史上下文,再通过门控机制与当前信息融合;

(4)记忆库在容量过大时,会合并相邻且相似的条目,实现“记忆压缩”;

(5)最终,增强后的记忆表示被送入扩散式动作专家,生成长时序的动作轨迹。

视觉-语言认知模块

视觉编码:采用 DINOv2 和 SigLIP 两个并行骨干网络提取视觉特征,并经过压缩模块(SE-bottleneck)得到 256 个紧凑的感知 token。

语言整合:把原始视觉特征投射到语言空间,与文本指令拼接后送入 LLaMA-7B,大模型在句尾位置输出一个认知 token,作为高层语义总结。

结果:得到一组感知 token(p)和一个认知 token(c),共同构成当前的工作记忆

感知-认知记忆模块(PCMB)

单靠工作记忆只能反映“当前时刻”,缺乏时间连续性。

PCMB 的作用就是保留和管理长时序信息(见图3)

资讯配图

3记忆模块的细节:(a) 检索(Retrieval):当前的感知(perceptual)和认知(cognitive)token 通过带有时间步位置编码(timestep positional encoding)的交叉注意力(cross-attention)机制,向感知–认知记忆库(PCMB)查询,以获取相关的历史特征。(b) 门控融合(Gate fusion):利用门控机制(gate mechanism),自适应地将当前 token 与检索到的历史 token 进行融合。(c) 巩固(Consolidation):融合后的 token 会被更新到 PCMB 中。当 PCMB 达到存储上限时,系统会计算相邻条目的相似度,并合并最相似的一对,以保持记忆库的紧凑性©️【深蓝具身智能】编译

(a)记忆检索

① 工作记忆会作为查询,去 PCMB 中取出历史的感知与认知条目;

② 每个存储条目都带有时间位置编码,用来保持顺序感;

③ 检索过程通过注意力机制完成,相当于“从记忆中翻找最相关的片段”。

(b)门控融合

① 当前 token 和检索到的历史 token 会通过门控机制(类似加权开关)融合;

② 模型会自动学习在什么情况下更依赖历史信息,什么情况下更多使用当下观测。

(c)记忆整合

① 当记忆条目数超过容量 L 时,模型会计算相邻条目的相似度;

② 找到最相似的一对并合并为一个平均表示;

③ 这样能去掉冗余,既保证信息完整,又维持存储紧凑。

最终得到的增强表示(感知 + 认知)既保留了过去的语义,也记录了细节。

记忆驱动的动作专家

有了增强记忆后,下一步是生成机器人动作。

(1)在每个去噪步骤中,动作 token 会结合认知 token(高层指导)和感知 token(细节补充);

(2)认知注意力层保证动作符合整体任务逻辑,感知注意力层补充局部环境细节;

(3)经过多步迭代去噪,得到平滑且精确的动作序列。

小结

MemoryVLA 的方法创新在于:引入了类人记忆机制。PCMB 像是“机器人版海马体”,不仅存储历史,还会检索、融合和压缩。结合扩散式动作专家,模型能在长时序任务中保持上下文一致性,避免遗忘或重复。

资讯配图

MemoryVLA 的验证

研究团队围绕五个核心问题展开实验:

1. 与现有最强方法相比,MemoryVLA 在SimplerEnv表现如何?

2. 在 LIBERO 这一更复杂的任务基准上,它能否保持优势?

3. 在真实机器人上,它是否既能胜任常规任务,又能处理长时序任务?

4. 记忆模块的各个组件分别带来多大提升?

5. 在多样化环境中,它是否具备鲁棒性与泛化能力?

实验覆盖 3 种机器人10套任务基准150+任务500+变体,既有仿真环境,也有真实操作。

资讯配图

4实验设置概览:上半部分:在三个仿真基准环境中进行评估,分别是 SimpleEnv-Bridge(搭配 WidowX 机械臂)、SIMPLER-Fractal(搭配 Google Robot),以及 LIBERO(搭配 Franka 机械臂)。下半部分:在两个真实环境套件中进行评估,分别是 General 和 Long-horizon Temporal。总体来看,实验共覆盖 3 种机器人、10 个任务套件,涉及 150+ 项任务与 500+ 种变体©️【深蓝具身智能】编译

SimplerEnv:桥接与分形任务

资讯配图

5在 SimplerEnv-Bridge环境中,使用 WidowX和Google机械臂的性能对比结果©️【深蓝具身智能】编译

(1)VM 场景下(环境贴近现实),在“开关抽屉”任务上,成功率84.7%,提升+12.9

(2)VA 场景下(背景、光照、干扰物不断变化),提升更显著:“开关抽屉”+24.9,“放入抽屉”+11.7

资讯配图

6在 Fractal环境中,使用 WidowX和Google机械臂的性能对比结果©️【深蓝具身智能】编译

通过实验可得:MemoryVLA 的记忆机制不仅提升了整体成功率,还显著增强了鲁棒性。

LIBERO:跨套件的通用操作

在 LIBERO 基准上,MemoryVLA 覆盖Franka 机械臂的五大套件:Spatial、Object、Goal、Long、LIBERO-90。

资讯配图

7在LIBERO环境中,使用 Franka机械臂的性能对比结果©️【深蓝具身智能】编译

值得注意的是,MemoryVLA 仅依赖第三人称 RGB 图像,没有用到手腕相机或机器人本体状态,却依旧领先。

这表明 MemoryVLA 对感知输入要求更低,却能保持极高性能。

真实机器人实验

Franka和 WidowX进行了12个任务:6 个常规操作,6 个长时序操作

资讯配图
资讯配图

① 顺序按按钮:提升+43

② 换食材:提升+38

③ 猜藏物位置:提升+32

④ 清理餐桌并计:提升+17

资讯配图

8在真实世界实验中,使用 Franka 和 WidowX 机器人进行的性能对比结果©️【深蓝具身智能】编译

从这个实验可以看出:在需要持续记忆和上下文推理的任务上,MemoryVLA 的优势最为突出。

消融实验:记忆设计的作用

① 加入时间编码:69.8%→71.9%

② 简单相加融合 vs 门控融合:67.7%→71.9%

③ 先进的合并策略 vs FIFO:66.7%→71.9%

资讯配图

9左图:对于记忆类型类型和长度的消融;右图:对于模块功能的消融©️【深蓝具身智能】编译

通过消融实验可知:每个记忆机制(检索、融合、整合)都对性能有关键贡献。

资讯配图

总结

MemoryVLA 的价值在于,它真正把“记忆”引入了 VLA 模型,让机器人不再是“短时反应的操作者”,而是能像人类一样记住过去、理解现在、规划未来

在实验中,它已经展现出跨环境、跨任务的强大泛化能力,尤其是在长时序任务上实现了质的飞跃。

未来,如果机器人能不断积累经验,把“常见套路”沉淀到长期记忆中,那它就可能像人类一样,越用越聪明。所以你觉得,当机器人真的拥有记忆,它会不会不仅仅成为一个帮助人类的工具,而是拥有许多共同回忆的“赛博伙伴”?

Ref:

论文题目:MEMORYVLA: PERCEPTUAL-COGNITIVE MEMORY IN VISION-LANGUAGE-ACTION MODELS FOR ROBOTIC MANIPULATION

论文地址:hhttps://arxiv.org/pdf/2508.19236

论文作者:Hao Shi, Bin Xie, Yingfei Liu, Lin Sun, Fengrong Liu, Tiancai Wang, Erjin Zhou, Haoqiang Fan, Xiangyu Zhang, Gao Huang

编辑|阿豹

审编|具身君



工作投稿|商务合作|转载

:SL13126828869(微信号)

>>>第三届自主机器人技术研讨会早鸟报名中<<<

ABOUT US|关于ARTS

资讯配图

为促进自主机器人领域一线青年学者和工程师的交流,推动学术界与企业界的深度交融与产学研合作,中国自动化学会主办了自主机器人技术研讨会(Autonomous Robotic Technology Seminar,简称ARTS)


基于前两届大会的成功经验和广泛影响,第三届ARTS将继续深化技术交流与创新,定于2025年10月18日-19日在浙江大学(杭州)举办。我们诚挚邀请您参加,并欢迎您对大会组织提供宝贵意见和建议!

资讯配图

我们开设此账号,想要向各位对【具身智能】感兴趣的人传递最前沿最权威的知识讯息外,也想和大家一起见证它到底是泡沫还是又一场热浪?‍

欢迎关注【深蓝具身智能】👇

资讯配图
1、阿里达摩院×浙大发布 | 具身大模型新SOTA:比 Gemini-2.5 Pro 还强 10.7 分!
2、大咖云集!ARTS 2025 | 第三届自主机器人技术研讨会早鸟报名中
3、仅占投稿5% | 推荐入选 CoRL 2025 Oral 的17 篇硬核成果,看机器人学习新趋势!
资讯配图

【深蓝具身智能】的内容均由作者团队倾注个人心血制作而成,希望各位遵守原创规则珍惜作者们的劳动成果。

工作投稿|商务合作|转载:SL13126828869(微信号)


资讯配图

点击收藏并推荐本文

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
功率 驱动
more
破解人机协作密码:工作技能拆成两层,AI执行人类决策成功率狂飙 | ICML 2025
【最全】2025年功率半导体行业上市公司全方位对比
碳化硅功率半导体器件产业链全景图
感知、规划、预测大一统!RoboTron-Nav实现具身导航成功率81%,创历史新高!
热计划丨国民好车:2450W功率,极速52km/h,72V20Ah电池+双向转把,仅3599
星尘智能发布Astribot Suite:用人类演示教机器人全身「移动」操作,成功率高达100%
【议程发布】玻璃通孔(TGV)、功率半导体与先进封装论坛!
使用人工神经网络设计具有稳定输出功率的E类逆变器,用于生物医学植入物
首个兼顾空间推理、开源、强泛化的机器人模型,6 大核心任务成功率远超 SOTA!
48V替代12V的时代正在到来,功率半导体是关键
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号