让机器人拥有人类般双记忆机制!清华联合原力灵机提出MemoryVLA,长程任务显著超越π0

智猩猩 2025-09-08 18:26
智猩猩Robot整理
编辑:严浠


目前视觉-语言-动作模型 (VLA) 在已在机器人操作领域取得了显著进展。然而,现有的主流VLA模型(如OpenVLA和π0)仅依赖当前观测,忽视了时序依赖性,因此在长时序操作任务上表现不佳。


如图1(a)所示的例子,机器人在“按下按钮”这个任务上,因按下前后几乎看不出视觉差异,难以判断动作是否已完成。这证明了操作任务的非马尔可夫性,因机器人没有记忆,仅依赖当前观测,导致按按钮这个简单的任务都无法完成,因此需要进行时序建模。


资讯配图


而人类通过由神经活动-海马体构成的记忆系统来处理操作任务,如图1(b)所示。该记忆系统为双记忆机制,分为工作记忆长期记忆。大脑将多模态感官输入编码为感知和认知表征。这些表征通过瞬态神经活动作为工作记忆,为即时决策提供短期保留。而海马体系统则保存过去经验的逐字细节和语义要点以形成长期记忆


受人类记忆启发,清华大学联合原力灵机、旷视科技、天津大学等提出了一个用于长程机器人操作、融合认知-记忆-动作的创新模型MemoryVLA。该模型不仅能够得到短期、即时的工作记忆,还能从中工作记忆中不断提取信息,得到长期记忆,通过感知-认知记忆库(Perceptual-Cognitive Memory Bank)进行存储,进行时序建模。


MemoryVLA在SimplerEnv、LIBERO和真实世界任务上实现了SOTA性能,并表现出强大的鲁棒性和泛化能力。在具有挑战性的长时序真实世界任务上,性能显著优于CogACT和π0,验证了时序记忆建模的重要性。


资讯配图


  • 论文标题:《MemoryVLA: Perceptual-Cognitive Memory in Vision-Language-Action Models for Robotic Manipulation》

  • 论文链接:https://web3.arxiv.org/pdf/2508.19236

  • 项目主页:

    https://shihao1895.github.io/MemoryVLA


1

方法


1.1 整体框架


MemoryVLA是一个用于机器人操作的端到端框架,如图2所示。


资讯配图


MemoryVLA模型通过一个拥有70亿参数的VLM将观测编码成形成工作记忆的感知tokens和认知tokens。感知-认知记忆库(PCMB)用于存储机器人的长期记忆。这种长期记忆是从中工作记忆中不断提取而来的,并将其分为低层级细节高层级语义两种存储起来。而工作记忆会从感知-认知记忆库中检索与决策相关的条目,将其与当前tokens自适应地融合,并通过合并冗余来更新记忆库。最终,这些经过记忆增强的tokens会条件化一个扩散Transformer ,用以预测一系列未来的动作,生成具有时序感知能力的动作序列。


1.2 视觉-语言认知模块


MemoryVLA基于一个拥有70 亿(7B)参数的 Prismatic VLM模型该模型进一步在大规模真实机器人数据集Open-X Embodiment上进行了预训练。对于视觉编码,采用并行的DINOv2和SigLIP主干网络 (backbones) 来处理当前第三人称RGB 图像 ,并将提取的特征连接起来,形成原始视觉 tokens。随后,通过SE-bottleneck结构实现的感知压缩模块将这些tokens压缩为一组紧凑的感知 tokens资讯配图。同时,原始视觉tokens通过一个线性层被投影到语言嵌入空间中,并与分词化 (tokenized) 后的语言指令拼接,继而输入到 LLaMA-7B 模型中。将模型在句尾位置输出的表征作为认知token 资讯配图,代表了高层的认知语义。最后,感知tokens和认知tokens组合在一起,形成短期工作记忆,供下游模块使用。


1.3 感知-认知记忆模块


视觉-语言认知模块产生会产生工作记忆,但仅包含当前时间步的信息,缺乏时序性。受人类记忆系统中海马体功能的启发,提出了感知-认知记忆库 (PCMB)


资讯配图
资讯配图


记忆检索


如图3(a)所示。工作记忆从感知-认知记忆库中检索与决策相关的条目。而每个存储条目都带有时间位置编码,用来保持时间顺序。检索过程通过注意力机制完成,相当于从记忆中翻找最相关的片段。


记忆门控融合(Memory Gate Fusion)


如图3(b) 所示,当前token和检索到的历史token 会通过门控机制(类似加权开关)融合;模型会自动学习在什么情况下更依赖历史信息,什么情况下更多使用当下观测。对于感知流和认知流,分别计算一个门控向量如下:


资讯配图


该门控向量用于计算记忆增强的表征:


资讯配图


记忆巩固


在门控融合之后,记忆增强的表征被传递给记忆驱动的动作专家,同时也被用于更新PCMB。当存储的条目数量超过容量 L 时,系统会分别计算感知流和认知流中相邻条目之间的余弦相似度。每个流中选择相似度最高的一对条目,通过计算其向量平均值进行合并,以此减少冗余。这种记忆巩固机制通过减少冗余来缓解记忆膨胀同时保留最深刻的感知细节和语义抽象,得到了支持长期记忆的紧凑表征


1.4 记忆驱动的动作专家


利用记忆增强的表征,动作专家预测一系列未来的动作。这种多步预测使模型能够预测后续轨迹,减少累积误差,并为长程任务执行提供动作后的结果预测。由于真实世界中的机器人动作处于一个连续的多模态控制空间,因此采用基于扩散的 Transformer (DiT) 架构使用去噪扩散隐式模型 (DDIM) 算法,通过10个去噪步骤实现高效且准确的轨迹生成。该架构通过逐步去噪一系列带噪声的动作tokens,最终生成精确的连续动作。


2

实验


为全面评估 MemoryVLA,实验围绕以下五个核心问题展开:


1. 与现有SOTA方法相比,MemoryVLA在SimplerEnv表现如何?

2. 在LIBERO这一更复杂的任务基准上,能否保持优势?

3. 在真实机器人上,是否既能胜任常规任务,又能处理长时序任务?

4. 记忆模块的各个组件分别带来多大提升?

5. 在多样化环境中,是否具备鲁棒性与泛化能力?


实验覆盖3种机器人、10套任务基准、150+任务、500+变体,既有仿真环境,也有真实操作。如图4所示。


资讯配图


2.1 在SimplerEnv上仿真评估


SimplerEnv-BridgeSimplerEnv-Fractal两个套件上进行评估。对于SimplerEnv-Bridge,将模型在Bridge v2数据集上训练,每个任务评估24次试验以计算成功率。对于SimplerEnv-Fractal,将模型在RT-1数据集上训练,Fractal 测试平台包含336种变体,共进行2,352次试验。


SimplerEnv-Bridge:实验结果如表1所示。MemoryVLA平均成功率达到71.9%,相比基线CogACT-Large提升了14.6%,超越了包括π0在内的近期所有VLA模型,实现SOTA。在把茄子放进篮子的任务中,成功率高达100%


资讯配图


SimplerEnv-Fractal :实验结果如表2所示。在视觉匹配 (VM) 和视觉扰动 (VA) 两种场景下,MemoryVLA平均成功率达到了72.7%,比 CogACT高出4.6%,全面超越π0,实现SOTA


资讯配图


2.2 在LIBERO上仿真评估


在LIBERO基准上使用Franka机械臂进行评估,涵盖Spatial、Object、 Goal、Long和LIBERO-90五个套件。前四个套件各含10个任务,LIBERO-90包含90个任务。遵循OpenVLA的方式,每个任务使用50条示范数据,每个任务评估50次试验。实验结果如表3所示。


资讯配图


MemoryVLA实现了高达96.5%的平均成功率,比CogACT提升了3.3%,并超越了包括π0在内的其他模型


2.3 真机实验


Franka和WidowX机器人上进行评估,共包括6个通用任务和6个长时序任务。两者均使用固定在正前方的Intel RealSense D435 RGB相机。实验结果如表4所示。


MemoryVLA在6个通用任务上平均成功率为达到85%,高于CogACT 9%,并超越其他所有模型。在6个长时序任务上平均成功率也高达83%,更是比CogACT高出26%,显著超越包括π0在内的其他模型。实验结果表明,MemoryVLA不仅在通用任务上表现出很强的性能,长时序任务上,优势更为突出。


资讯配图


3

总结


受认知科学启发,本论文提出了一个用于长程机器人操作、融合认知-记忆-动作的创新模型MemoryVLA。该模型利用一个类似人类海马体系统的感知-认知记忆库PCMB存储长期记忆,与工作记忆协同以捕捉时序依赖性。让机器人能像人类一样拥有长期记忆并理解现在、规划未来。


在仿真和真实机器人上对MemoryVLA进行评估,MemoryVLA在所有任务中超越了包括CogACT和π0在内的其他模型,实现了SOTA性能,并且在长时序任务上,优势更为突出。


END


      推荐阅读      


具身导航最新SOTA!清华联合智源提出NavA³框架,已成功部署轮式和四足机器人

超越微软Magma!NVIDIA联合提出机器人VLA推理模型ThinkAct,能反思错误并自主纠正

结合3D高斯与生成模型!清华联合BIGAI提出机器人操作世界模型GWM | ICCV 2025

灵巧手抓放任务成功率100%!帕西尼联合上交大提出融合触觉的VLA模型OmniVTLA

全面优于π0!星海图开源端到端双系统VLA模型G0:基于500小时真机数据预训练


点击下方名片 即刻关注我们

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
机器人
more
【倒计时3天】人形机器人感知与控制峰会
字节团队最新Robix!全能大模型,一个模型就能搞定机器人推理、任务规划和交互
机器人花式“整活”、园区“上岗”……科技场景融入城市生活
2025年第九个月份,机器人领域迎来了一场资本与产业的「狂欢」……
全球9大顶级工业机器人制造商:ABB、发那科库卡在列!
2025年中国擦窗机器人行业产业链、竞争格局、重点企业及投资风险
国内手术机器人佼佼者,融了近5个亿!
【机器人】我国人形机器人销量有望超1万台,三个趋势值得关注
MCU大脑“整花活”,工业机器人迭代方向渐明
斥资千万元!又一A股企业押注机器人
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号