一、研究背景与核心问题
视觉-语言-动作模型(VLAs)是当前机器人通用策略学习的重要方向,其基于互联网规模多模态数据预训练的视觉-语言模型(VLMs)扩展而来,能生成适配新物体、场景和指令的动作。但这类模型存在关键缺陷:无法建模动作对环境的影响,缺乏对物理过程的显式理解,导致策略泛化性和鲁棒性受限。
为解决这一问题,近年研究尝试用“世界建模”增强VLAs——即让模型同时预测未来视觉观测和动作序列,以捕捉动作与视觉结果间的潜在动态。但现有方案面临模态冲突的核心挑战:
-
统一联合扩散架构(如PAD、EnerVerse):将动作和视觉模态拼接后用单一模型处理,默认两者共享潜空间。但动作需低维、时序平滑的输出,视觉需高维、空间结构化的输出,强行统一会导致两个目标互相干扰(figure 1a); -
因果扩散架构(如Video Policy):用分离模型处理两种模态,但仅支持单向条件传递(如用动作预测视觉),无法实现双向知识迁移,限制跨模态信息利用(figure 1b)。

为此,本工作提出双流扩散框架(DUST),核心目标是在保持模态特异性的同时实现跨模态知识共享,解决联合预测的模态冲突问题。
二、相关工作梳理
视觉-语言-动作模型(VLAs)
VLAs的核心是将VLMs适配机器人任务,主要分为两类动作生成方式:
-
自回归生成:直接按时间步生成动作序列; -
扩散生成:通过扩散模型学习动作的概率分布(如π0、GR00T-N1.5),论文采用此类方案,因其更易建模复杂动作分布。
现有VLAs多聚焦于“模仿学习”,即学习演示数据中的动作分布,却忽略了“动作如何影响未来状态”的物理动态建模——这正是DUST需补充的核心方向。
机器人策略学习的世界建模
世界建模的核心是让模型预测未来状态,以增强对环境动态的理解,现有方案可从“架构设计”和“状态表示”两维度划分:
-
架构设计: -
统一架构:用单一模型联合处理动作和视觉(如PAD、EnerVerse、UWM),部分方案(如FLARE)通过对齐中层特征避免直接扩散视觉,但仍未解决模态冲突; -
分离架构:用独立模型处理两种模态,但仅支持单向条件传递(如Video Policy),无法双向利用信息。 -
状态表示: -
像素级预测:直接预测下一帧RGB图像(如PAD、PIDM),易陷入高频视觉细节(如光影变化),这些细节对控制无关却增加建模成本; -
嵌入级预测:预测预训练编码器(如DINOV2、Q-Former)提取的视觉嵌入(如DINO-WM、FLARE),聚焦语义结构而非像素——DUST采用此方案,平衡建模效率与控制相关性。
三、预备知识
问题设定
-
数据集:由专家演示轨迹组成,每个轨迹包含任务指令、观测序列和动作序列; -
观测:包含视觉观测(图像)和机器人本体感受状态(如关节角度); -
动作:按“动作块”分组(),为块大小,目的是捕捉时序关联性; -
目标:给定和,预测动作块。
VLA模型基础
DUST的VLA基础遵循扩散类VLA的通用设计:
-
语义特征提取:用预训练VLM(论文采用Eagle-2)处理和,得到语义特征; -
动作扩散模型:用扩散Transformer(DiT)作为“动作专家”,基于和预测动作,训练目标为Flow Matching损失:
其中,(为时间步,为高斯噪声),是预测“速度场”的网络,目标是让预测速度场逼近真实速度场;
-
推理过程:初始化动作噪声,通过欧拉方法迭代去噪生成动作:
为动作去噪步数。
世界建模基础
世界建模的目标是预测“执行动作块后的未来视觉状态”,但不直接预测像素,而是预测未来视觉嵌入:
-
用VLM的视觉编码器处理未来视觉观测,得到嵌入; -
模型目标:基于和预测,避免像素级建模的冗余成本。
四、DUST方法详解
DUST通过“架构设计”“训练算法”“采样策略”三部分协同解决模态冲突,核心是“解耦模态处理,保留跨模态交互”。
双流架构设计

DUST的架构以“多模态扩散Transformer(MMDiT)”为核心,分为三层结构:
-
基础条件层:预训练VLM(Eagle-2)处理当前观测和指令,输出语义特征,为后续扩散模型提供全局条件; -
双流MMDiT层:动作流(处理带噪声动作)和视觉流(处理带噪声未来嵌入)保持独立传递,仅在跨模态注意力层临时合并——此设计既避免模态干扰,又能交换信息(如动作流告知视觉流“即将执行的动作”,视觉流告知动作流“预期的未来状态”); -
模态特异性DiT层:MMDiT输出后,动作流和视觉流分别进入独立的DiT块(论文用4层),进行细粒度去噪——动作流聚焦时序平滑性,视觉流聚焦语义一致性; -
关键细节:每个流通过自适应层归一化(AdaLN) 引入独立的时间步嵌入(动作流用,视觉流用),确保模态按自身节奏学习去噪。
解耦联合训练算法
核心是“模态独立噪声调度”,让动作和视觉按自身特性学习,同时捕捉双向因果关系:
-
独立噪声注入:
-
动作噪声:采样和,生成带噪声动作; -
视觉噪声:采样和,生成带噪声视觉嵌入; -
双目标损失:模型同时优化动作预测和世界建模损失,总损失为两者加权和:
其中,和分别是动作流和视觉流的速度场预测,是平衡两目标的超参数(消融实验显示最优,table 6c);
-
双向因果学习:独立噪声调度允许模型学习“反向因果”(如从噪声动作预测清晰视觉嵌入,即“什么动作能导致该状态”)和“正向因果”(如从清晰动作预测噪声视觉嵌入,即“该动作会导致什么状态”),比单向因果更全面捕捉模态关联。
视觉-动作联合采样(测试时缩放)
推理阶段,动作和视觉的去噪需求存在差异:视觉嵌入维度高、结构复杂,需更多去噪步骤;动作维度低、时序平滑,少量步骤即可收敛。为此,DUST提出异步联合采样策略:

-
步数设定:动作去噪步数为,视觉去噪步数为(为整数,默认1,可调整); -
异步更新:
-
视觉流:每步更新,步长; -
动作流:每步更新,步长; -
数学表达:

此设计可在“推理速度”和“预测精度”间灵活权衡:增大提升视觉去噪精度(进而提升动作合理性),但增加推理时间;反之则提速但可能降低精度。
五、实验验证与分析
论文从“仿真场景”“真实场景”“迁移能力”“组件有效性”四个维度验证DUST,基线模型为当前SOTA的GR00T-N1.5和其FLARE增强版(论文复现)。
主要结果:模拟与真实场景
模拟场景(RoboCasa与GR-1)
-
RoboCasa(单臂厨房操作,24任务):table 1显示,100个演示数据下,DUST平均成功率比GR00T-N1.5高18%、比FLARE高5%;即使演示数据增至1000个,优势仍保持,证明其数据效率与 scalability;

-
GR-1(人形机器人桌面操作,24任务):table 2显示,300/1000个演示数据下,DUST在拾取放置(PnP)和关节操作(Art.)任务中均优于基线,尤其在复杂关节任务中提升更明显(因需更精准的环境动态建模)。

真实场景(Franka Research 3机械臂)
-
任务:4个拾取放置任务,涉及不同物体(泰迪熊、蓝 cube、蓝杯、海绵)和源-目标配置; -
结果:table 3显示,DUST平均成功率比GR00T-N1.5高13%、比FLARE高12%;定性对比(figure 5)显示,DUST因能预测未来状态,可调整机械臂姿态以精准对齐目标(如杯口),而GR00T-N1.5易出现姿态偏差导致抓取失败。


迁移学习:利用无动作视频预训练
机器人演示数据采集成本高(需遥操作),而无动作视频(如人类日常操作视频)易大规模获取。DUST的双流架构支持“无动作视频预训练→机器人数据微调”的迁移范式:
-
预训练:在BridgeV2无动作视频数据集上训练,仅优化世界建模损失(动作流随机初始化); -
微调:用RoboCasa 100个演示数据微调全模型; -
结果:table 4显示,预训练后DUST平均成功率从0.501提升至0.585,证明其能利用低成本视频数据学习环境动态,降低对机器人演示的依赖。

测试时缩放:异步采样的有效性
table 5显示,增大视觉去噪步数(从4到64):

-
RoboCasa:1000个演示数据下,平均成功率提升2-3%; -
GR-1:1000个演示数据下,32步时提升5%(64步略有下降,因过度去噪引入冗余); -
对比同步采样:table 7显示,若同时增大和,成功率反而下降——证明动作无需过多去噪,异步采样是平衡精度与速度的关键。

消融实验:组件必要性
table 6验证DUST核心组件的作用:

-
架构与噪声调度(table 6a):仅MMDiT架构(无解决耦噪声)或仅解耦噪声(无MMDiT)均导致性能下降,只有两者结合(DUST)才能达到最优,证明“双流架构+解耦训练”的协同性; -
MMDiT层数(table 6b):12层MMDiT+4层模态DiT最优,层数过少则跨模态信息交换不足,过多则引入冗余; -
损失权重(table 6c):时最优,过小则世界建模不足(无法捕捉环境动态),过大则动作预测被压制(导致动作与指令脱节)。
六、结论与展望
DUST的核心贡献的是提出“双流扩散”范式,在VLA模型中实现“模态特异性建模”与“跨模态知识共享”的平衡,具体创新点包括:
-
双流MMDiT架构:保持动作与视觉流独立,仅通过跨模态注意力交换信息,避免模态干扰; -
解耦训练算法:独立噪声调度+双目标损失,支持双向因果学习,更全面捕捉动作-视觉关联; -
异步联合采样:推理时按模态需求分配去噪步数,灵活权衡精度与速度。
实验证明,DUST在模拟/真实场景中均优于SOTA,且能利用无动作视频预训练降低数据成本。未来可进一步探索:
-
更大规模预训练:结合更多无动作视频(如互联网-scale数据),提升模型对多样环境的适应能力; -
多模态扩展:融入触觉、力觉等模态,进一步增强机器人对环境的感知与动态建模能力。
参考
[1] DUAL-STREAM DIFFUSION FOR WORLD-MODEL AUGMENTED VISION-LANGUAGE-ACTION MODEL