在现实世界中,人类完成诸如拿起水杯、打开抽屉这样的日常操作时,大脑会下意识地预判物体的运动状态。
我们会根据杯子的摆放位置预判拿起时的受力变化,根据抽屉把手的结构预判拉动时的轨迹,这种对物体运动的先验推理,正是人类操作精准高效的核心原因。
而当前主流的机器人操作政策,大多依赖于直接从视觉观测中预测动作,就像 “凭印象做事”,缺乏对物体运动规律的深度推理。这导致机器人在面对物体姿态变化、动态环境或高精度操作任务时,常常表现出鲁棒性不足、泛化能力差的问题。

上海交通大学和西安电子科技大学的研究团队提出的 Motion Before Action(MBA)模块,正是为解决这一痛点而生。它借鉴人类 “先预判运动,再执行动作” 的认知逻辑,通过级联扩散过程实现物体运动预测与动作生成的协同,为现有机器人操作政策提供了一种灵活高效的性能增强方案。本文将从研究背景、核心价值与技术细节三个维度,深入解析这一创新工作。
项目链接:https://selen-suyue.github.io/MBApage/
一、为什么要做这个工作?
1、现有机器人操作政策的局限
近年来,模仿学习在机器人操作领域取得了显著进展,从单步动作预测到多步动作序列生成,技术路线不断演进。尤其是扩散模型凭借其捕捉动作序列多样性和复杂性的优势,成为主流的动作生成框架。但即便如此,现有方法仍存在难以逾越的瓶颈。
首先,过度依赖环境线索,缺乏推理能力。大多数政策通过编码器提取观测特征,再直接映射到动作空间,本质上是在 “记忆” 专家演示中的观测 - 动作关联,而非 “理解” 任务背后的物理规律。当遇到演示中未出现的物体姿态偏移、动态场景变化时,这种记忆式学习的泛化能力便会急剧下降。例如在打开抽屉任务中,若抽屉初始位置与演示数据存在微小差异,机器人可能因无法预判把手的运动轨迹而导致抓取失败。
其次,观测与动作的映射缺乏一致性约束。机器人的末端执行器姿态、物体姿态与动作之间存在天然的物理和数学关联,但现有方法并未充分利用这种关联性。这使得动作生成容易出现 “脱节” 现象,比如在切割黏土任务中,刀具的运动与黏土的分离过程无法精准同步,导致操作效率低下。
2、人类认知机制的启发
生理学研究表明,人类视觉皮层中存在专门处理物体运动信息的区域(如 MT 区),这些区域能够快速解析物体的动态特征,为动作执行提供关键指导。

这种 “先推理运动,再生成动作” 的认知逻辑,正是现有机器人政策所缺失的。研究团队意识到,若能让机器人具备类似的物体运动预判能力,就能从根本上解决观测 - 动作映射的泛化性和一致性问题。通过提取物体的运动信息作为动作生成的条件,机器人可以像人类一样 “理解” 操作的本质,而非机械地复制演示动作。
3、技术可行性
扩散模型作为一种强大的概率生成模型,在学习复杂分布方面表现出卓越能力。研究团队发现,物体姿态(6D 位姿)与机器人末端执行器姿态在表示形式上具有一致性,二者的运动规律也遵循相似的物理分布。
这意味着扩散模型既可以用于生成物体的未来姿态序列,也可以在该序列的指导下生成机器人动作,这种技术上的兼容性为 MBA 模块的设计提供了核心支撑。
同时,扩散模型的迭代去噪过程能够自然地建模连续的运动序列,这与物体运动和机器人动作的时序特性高度契合。相比传统的动作生成方法,扩散模型能够更好地捕捉动作之间的依赖关系,减少连续动作的不一致性。
二、这个工作有什么用?
MBA 模块的核心价值在于其普适性和有效性,它能够无缝集成到现有基于扩散模型的机器人操作政策中,在多种场景下带来显著的性能提升,同时降低政策的学习成本。
1、显著提升任务成功率
在涵盖 57 个模拟任务的三大基准测试(Adroit、DexArt、MetaWorld)中,集成 MBA 的政策表现出了一致的优势。平均而言,MBA 使 DP 政策的成功率提升了 14.2%,使 DP3 政策提升了 6.2%。尤其是在高难度任务中,这种提升更为明显:在 MetaWorld 的 “非常困难” 级别任务中,DP3+MBA 的成功率从 49.0% 飙升至 86.8%;在 Adroit 的 “开门” 任务中,DP3+MBA 的成功率从 62% 提升至 74%。
2、降低学习成本
除了性能提升,MBA 还能显著加速政策的学习过程。实验结果显示,集成 MBA 的政策往往能在更少的训练步骤中达到峰值性能,且后续表现更为稳定。这是因为物体姿态序列提供了更具可学习性的中间表示,降低了观测 - 动作映射的复杂度。
例如在 MetaWorld 的 “锤钉子” 任务中,传统 DP 政策需要大量训练步骤才能掌握锤击的节奏和力度,而 MBA 通过预判钉子和锤子的相对运动,让政策更快理解任务的核心逻辑,从而加速收敛。这种学习效率的提升,意味着在实际应用中可以减少演示数据的需求量,降低机器人技能获取的成本。
3、适配多种复杂操作场景
MBA 的优势并非局限于特定任务类型,而是在多种复杂场景中均能发挥作用,这使其具备广泛的应用前景:
-
软物体操作:在 “放置面包” 任务中,面包会因抓取力度和放置过程发生形变,导致姿态难以预测。MBA 使 RISE 政策的成功率从 80% 提升至 95%,且冗余抓取次数从 7 次减少至 1 次,证明其能够有效处理软物体的动态姿态变化。
-
工具使用任务:在 “切割黏土” 任务中,需要精准控制刀具的运动轨迹以实现黏土分离。MBA 使 RISE 政策的切割成功率从 70% 提升至 90%,分离成功率从 30% 提升至 55%,展现了其在工具操作中的精准指导能力。
-
6 自由度任务:在 “倾倒小球” 任务中,需要同时控制杯子的平移和旋转,避免小球洒落。MBA 使 DP 政策的倾倒成功率从 10% 提升至 40%,抓取成功率从 30% 提升至 60%,充分验证了其在高自由度任务中的适应性。
4、即插即用的灵活性
MBA 的设计遵循 “轻量化集成” 原则,无需重构现有政策的核心框架。无论是 2D 还是 3D 政策,只要其采用扩散模型作为动作生成头,都可以无缝集成 MBA 模块。这种灵活性意味着现有机器人系统无需进行大规模改造,就能快速获得运动推理能力,显著降低了技术落地的门槛。
在真实世界实验中,研究团队将 MBA 分别集成到 DP、DP3 和 RISE 三种不同的政策中,均实现了性能提升,充分证明了其普适性。这种 “即插即用” 的特性,使其在工业机器人、服务机器人等多种场景中都具有极高的应用价值。
三、核心方法
MBA 模块的核心设计理念是 “两级扩散,协同生成”:首先通过扩散模型预测物体的未来姿态序列,再以该序列为条件,通过另一扩散模型生成机器人动作。整个模块结构简洁,与现有政策的集成方式灵活,其具体实现细节如下:

1、整体框架:观测 - 运动 - 动作的三级映射
MBA 的整体框架遵循 “观测输入→运动推理→动作生成” 的逻辑,与现有政策形成互补。其核心流程如下:

整个框架的关键在于,物体姿态序列作为中间桥梁,建立了观测与动作之间的逻辑关联,使动作生成不再是对观测特征的直接映射,而是基于物体运动规律的理性决策。同时,框架要求 Tm≥Ta,确保动作生成始终在运动预测的有效范围内,保证操作的连贯性。
2. 物体运动生成模块:精准预测未来姿态
物体运动生成模块是 MBA 的核心之一,其目标是基于当前观测,预测物体未来的连续姿态序列。该模块采用扩散模型实现,具体设计如下:

该模块的优势在于,通过扩散模型的概率生成能力,能够捕捉物体运动的不确定性,生成多样化且符合物理规律的姿态序列,为后续动作生成提供灵活的指导。
3、运动引导的动作生成模块:协同优化动作序列
动作生成模块在原有政策扩散头的基础上,引入物体姿态序列作为额外条件,通过联合建模实现更精准的动作生成:

这种设计使动作生成过程能够实时响应物体的运动状态,确保动作与物体运动的协同性。
-
训练目标:同样采用 MSE 损失函数,监督噪声预测的准确性。训练数据为专家演示的动作序列,与物体姿态序列的训练数据保持同步,确保两者的关联性:

值得注意的是,物体运动生成与动作生成共享相同的噪声调度策略和扩散步骤数,这使得两个模块的训练和推理能够保持节奏一致,进一步提升了整个系统的稳定性。
4、执行机制:端到端的闭环控制
在推理阶段,MBA 与原有政策形成端到端的闭环控制系统,无需依赖训练阶段使用的 MoCap 系统。其具体执行流程如下:



这种闭环执行机制确保了机器人能够根据环境的实时变化(如物体姿态的意外偏移)及时调整运动预测和动作生成,从而提升操作的鲁棒性。同时,Tm≥Ta 的设计原则保证了动作生成始终在运动预测的有效窗口内,避免了因预测过期导致的动作失配。
5、与现有政策的集成方式
MBA 的 “即插即用” 特性源于其灵活的集成设计。对于任何采用扩散模型作为动作头的机器人政策,只需进行以下简单修改即可集成 MBA:
-
在政策的编码器与动作扩散头之间插入 MBA 的物体运动生成模块;
-
修改动作扩散头的输入层,增加物体姿态特征的拼接接口;
-
联合训练物体运动模块与原有政策的动作扩散头(保持编码器参数固定或微调)。
这种集成方式无需改变原有政策的核心架构和感知模块,极大地降低了集成成本。实验中,研究团队成功将 MBA 集成到 2D 政策(DP)和 3D 政策(DP3、RISE)中,均实现了性能的显著提升,验证了其集成的便捷性和有效性。
四、总结与展望
MBA 模块通过借鉴人类 “先推理运动,再生成动作” 的认知逻辑,为机器人操作政策提供了一种全新的性能增强方案。它以物体姿态序列为中间桥梁,通过两级扩散模型实现了运动预测与动作生成的协同,从根本上解决了现有政策泛化性差、鲁棒性不足的核心痛点。
从实际效果来看,MBA 在 57 个模拟任务和 4 个真实世界任务中均表现出卓越的性能提升,无论是软物体操作、高精度任务还是 6 自由度任务,都能有效提升成功率和操作效率。其 “即插即用” 的设计使其能够无缝集成到现有政策中,降低了技术落地的门槛。
END