清华大学：记忆驱动的 VLA 框架来了！复刻人类双记忆机制，长时序操作成功率达 96.5%

资讯配图

为什么机器人在执行“按下按钮”这类简单操作时，常常会反复按压、无法判断是否成功？

这是因为机器人操作任务本质上是非马尔可夫的：当前观察并不足以决定接下来该做什么，过去的动作和上下文对未来决策至关重要。

这就导致了现有的视觉-语言-动作（VLA）模型，大多只依赖“当下的一帧观测”，缺乏对时间依赖的建模。这带来了几个显著问题：在长时序任务中表现不佳：

动作前后画面几乎相同，机器人难以自我反馈；
直接堆叠多帧图像又会拖慢推理、偏离预训练性能；
任务执行容易中断，连贯性差。

与此相对，人类操作任务高度依赖记忆系统，凭借情景记忆回溯经验，在操作中不断调取、整合、更新记忆。

本文介绍的由清华大学等团队提出的 MemoryVLA 模型，正在尝试为机器人植入这种“人类式的记忆系统”，让它们也能具备感知-认知联动记忆机制！

我们开设此账号，想要向各位对【具身智能】感兴趣的人传递最前沿最权威的知识讯息外，也想和大家一起见证它到底是泡沫还是又一场热浪？

欢迎关注【深蓝具身智能】👇

资讯配图

从短时反应到长期规划

受人类记忆系统的启发，研究者提出了MemoryVLA——一个融合“认知-记忆-动作”的新型框架。

其核心设计包括：

感知-认知记忆库（Perceptual–Cognitive Memory Bank, PCMB）：既存储底层感知细节，也保留高层语义信息；
工作记忆机制：能根据当前任务需求，从记忆中检索关键上下文，并与新的观测自适应融合；
记忆更新与整合：当存储达到容量上限时，自动合并时间相邻、语义相似的条目，实现精炼存储；
记忆驱动的扩散动作专家：利用感知与认知 token 作为条件，生成考虑时间依赖的动作序列。

通过这一机制，MemoryVLA 不再是“短时反应的操作者”，而是具备“带记忆的推理者”。

实验显示，它在模拟环境（Bridge、Fractal、LIBERO）和真实机器人任务（Franka、WidowX）上均取得显著提升，尤其在长时序任务上，相比现有方法提升超过+26个点。

资讯配图

▲图1｜机器人记忆的场景示例及本文研究动机：(a) 在推按钮（Push Buttons）任务中，按下前后的状态几乎完全相同，因此需要进行时间序列建模。(b) 人类在操作任务中依赖双重记忆系统：工作记忆（神经活动）负责短期控制，而情景记忆（海马体）则保留长期经验。(c) 受此启发，MemoryVLA 引入了一个“感知–认知记忆库”（Perceptual–Cognitive Memory Bank），用于整合低层次的感知细节与高层次的语义信息，从而实现对时间变化敏感的决策。(d) MemoryVLA 在性能上优于当前的多种先进基线方法©️【深蓝具身智能】编译

接下来，我们将解读 MemoryVLA 的核心方法设计：它是如何将记忆机制引入 VLA 模型、如何构建 PCMB，以及如何实现记忆驱动的动作生成。

MemoryVLA 的核心机制

总体框架

MemoryVLA 是一个端到端的机器人操作框架，它把视觉-语言-动作推理和记忆机制结合在一起（见图2）。

资讯配图

▲图2｜MemoryVLA 的整体架构：RGB 观测图像和语言指令首先通过一个 7B 规模的视觉语言模型（VLM）编码为感知（perceptual）和认知（cognitive）两类 token，构成短期工作记忆（working memory）。工作记忆随后查询感知–认知记忆库（Perceptual-Cognitive Memory Bank，PCMB），从中检索与当前任务相关的历史上下文信息，包括高层语义和低层视觉细节。系统将检索到的历史信息与当前 token 自适应融合，并通过合并最相似的邻居样本不断更新和巩固 PCMB。最后，增强后的记忆驱动 token 用于条件化扩散式 Transformer（diffusion transformer），预测未来一系列动作序列©️【深蓝具身智能】编译

输入：当前的 RGB 图像和自然语言指令；
输出：未来一段时间的机器人动作序列（7 自由度：三维平移、三维旋转和抓取开关）。
流程：

（1）视觉-语言模块将图像和指令转化为感知 token（细节特征）和认知 token（高层语义）；

（2）这些 token 构成工作记忆，类似人脑短期记忆；

（3）工作记忆会去感知-认知记忆库（PCMB）检索历史上下文，再通过门控机制与当前信息融合；

（4）记忆库在容量过大时，会合并相邻且相似的条目，实现“记忆压缩”；

（5）最终，增强后的记忆表示被送入扩散式动作专家，生成长时序的动作轨迹。

视觉-语言认知模块

视觉编码：采用 DINOv2 和 SigLIP 两个并行骨干网络提取视觉特征，并经过压缩模块（SE-bottleneck）得到 256 个紧凑的感知 token。

语言整合：把原始视觉特征投射到语言空间，与文本指令拼接后送入 LLaMA-7B，大模型在句尾位置输出一个认知 token，作为高层语义总结。

结果：得到一组感知 token（p）和一个认知 token（c），共同构成当前的工作记忆

感知-认知记忆模块（PCMB）

单靠工作记忆只能反映“当前时刻”，缺乏时间连续性。

PCMB 的作用就是保留和管理长时序信息（见图3）。

资讯配图

▲图3｜记忆模块的细节：(a) 检索（Retrieval）：当前的感知（perceptual）和认知（cognitive）token 通过带有时间步位置编码（timestep positional encoding）的交叉注意力（cross-attention）机制，向感知–认知记忆库（PCMB）查询，以获取相关的历史特征。(b) 门控融合（Gate fusion）：利用门控机制（gate mechanism），自适应地将当前 token 与检索到的历史 token 进行融合。(c) 巩固（Consolidation）：融合后的 token 会被更新到 PCMB 中。当 PCMB 达到存储上限时，系统会计算相邻条目的相似度，并合并最相似的一对，以保持记忆库的紧凑性©️【深蓝具身智能】编译

（a）记忆检索

① 工作记忆会作为查询，去 PCMB 中取出历史的感知与认知条目；

② 每个存储条目都带有时间位置编码，用来保持顺序感；

③ 检索过程通过注意力机制完成，相当于“从记忆中翻找最相关的片段”。

（b）门控融合

① 当前 token 和检索到的历史 token 会通过门控机制（类似加权开关）融合；

② 模型会自动学习在什么情况下更依赖历史信息，什么情况下更多使用当下观测。

（c）记忆整合

① 当记忆条目数超过容量 L 时，模型会计算相邻条目的相似度；

② 找到最相似的一对并合并为一个平均表示；

③ 这样能去掉冗余，既保证信息完整，又维持存储紧凑。

最终得到的增强表示（感知 + 认知）既保留了过去的语义，也记录了细节。

记忆驱动的动作专家

有了增强记忆后，下一步是生成机器人动作。

模型形式：采用基于扩散的 Transformer（DiT），并用 DDIM 加速采样；
输出形式：预测 16 步未来动作轨迹，每步包含 7 自由度控制量；
过程细节：

（1）在每个去噪步骤中，动作 token 会结合认知 token（高层指导）和感知 token（细节补充）；

（2）认知注意力层保证动作符合整体任务逻辑，感知注意力层补充局部环境细节；

（3）经过多步迭代去噪，得到平滑且精确的动作序列。

训练目标：用均方误差（MSE）损失约束预测动作与真实动作序列一

小结

MemoryVLA 的方法创新在于：引入了类人记忆机制。PCMB 像是“机器人版海马体”，不仅存储历史，还会检索、融合和压缩。结合扩散式动作专家，模型能在长时序任务中保持上下文一致性，避免遗忘或重复。

MemoryVLA 的验证

研究团队围绕五个核心问题展开实验：

1. 与现有最强方法相比，MemoryVLA 在SimplerEnv表现如何？
2. 在 LIBERO 这一更复杂的任务基准上，它能否保持优势？
3. 在真实机器人上，它是否既能胜任常规任务，又能处理长时序任务？
4. 记忆模块的各个组件分别带来多大提升？
5. 在多样化环境中，它是否具备鲁棒性与泛化能力？

实验覆盖 3 种机器人、10套任务基准、150+任务、500+变体，既有仿真环境，也有真实操作。

资讯配图

▲图4｜实验设置概览：上半部分：在三个仿真基准环境中进行评估，分别是 SimpleEnv-Bridge（搭配 WidowX 机械臂）、SIMPLER-Fractal（搭配 Google Robot），以及 LIBERO（搭配 Franka 机械臂）。下半部分：在两个真实环境套件中进行评估，分别是 General 和 Long-horizon Temporal。总体来看，实验共覆盖 3 种机器人、10 个任务套件，涉及 150+ 项任务与 500+ 种变体©️【深蓝具身智能】编译