KAIST团队：基于双流扩散的世界模型增强VLA模型

一、研究背景与核心问题

视觉-语言-动作模型（VLAs）是当前机器人通用策略学习的重要方向，其基于互联网规模多模态数据预训练的视觉-语言模型（VLMs）扩展而来，能生成适配新物体、场景和指令的动作。但这类模型存在关键缺陷：无法建模动作对环境的影响，缺乏对物理过程的显式理解，导致策略泛化性和鲁棒性受限。

为解决这一问题，近年研究尝试用“世界建模”增强VLAs——即让模型同时预测未来视觉观测和动作序列，以捕捉动作与视觉结果间的潜在动态。但现有方案面临模态冲突的核心挑战：

统一联合扩散架构（如PAD、EnerVerse）：将动作和视觉模态拼接后用单一模型处理，默认两者共享潜空间。但动作需低维、时序平滑的输出，视觉需高维、空间结构化的输出，强行统一会导致两个目标互相干扰（figure 1a）；
因果扩散架构（如Video Policy）：用分离模型处理两种模态，但仅支持单向条件传递（如用动作预测视觉），无法实现双向知识迁移，限制跨模态信息利用（figure 1b）。

为此，本工作提出双流扩散框架（DUST），核心目标是在保持模态特异性的同时实现跨模态知识共享，解决联合预测的模态冲突问题。

二、相关工作梳理

视觉-语言-动作模型（VLAs）

VLAs的核心是将VLMs适配机器人任务，主要分为两类动作生成方式：

自回归生成：直接按时间步生成动作序列；
扩散生成：通过扩散模型学习动作的概率分布（如π0、GR00T-N1.5），论文采用此类方案，因其更易建模复杂动作分布。

现有VLAs多聚焦于“模仿学习”，即学习演示数据中的动作分布，却忽略了“动作如何影响未来状态”的物理动态建模——这正是DUST需补充的核心方向。

机器人策略学习的世界建模

世界建模的核心是让模型预测未来状态，以增强对环境动态的理解，现有方案可从“架构设计”和“状态表示”两维度划分：

架构设计：

统一架构：用单一模型联合处理动作和视觉（如PAD、EnerVerse、UWM），部分方案（如FLARE）通过对齐中层特征避免直接扩散视觉，但仍未解决模态冲突；
分离架构：用独立模型处理两种模态，但仅支持单向条件传递（如Video Policy），无法双向利用信息。

状态表示：

像素级预测：直接预测下一帧RGB图像（如PAD、PIDM），易陷入高频视觉细节（如光影变化），这些细节对控制无关却增加建模成本；
嵌入级预测：预测预训练编码器（如DINOV2、Q-Former）提取的视觉嵌入（如DINO-WM、FLARE），聚焦语义结构而非像素——DUST采用此方案，平衡建模效率与控制相关性。

三、预备知识

问题设定

数据集：由专家演示轨迹组成，每个轨迹包含任务指令、观测序列和动作序列；
观测：包含视觉观测（图像）和机器人本体感受状态（如关节角度）；
动作：按“动作块”分组（），为块大小，目的是捕捉时序关联性；
目标：给定和，预测动作块。

VLA模型基础

DUST的VLA基础遵循扩散类VLA的通用设计：

语义特征提取：用预训练VLM（论文采用Eagle-2）处理和，得到语义特征；
动作扩散模型：用扩散Transformer（DiT）作为“动作专家”，基于和预测动作，训练目标为Flow Matching损失：

其中，（为时间步，为高斯噪声），是预测“速度场”的网络，目标是让预测速度场逼近真实速度场；

推理过程：初始化动作噪声，通过欧拉方法迭代去噪生成动作：

为动作去噪步数。

世界建模基础

世界建模的目标是预测“执行动作块后的未来视觉状态”，但不直接预测像素，而是预测未来视觉嵌入：

用VLM的视觉编码器处理未来视觉观测，得到嵌入；
模型目标：基于和预测，避免像素级建模的冗余成本。

四、DUST方法详解

DUST通过“架构设计”“训练算法”“采样策略”三部分协同解决模态冲突，核心是“解耦模态处理，保留跨模态交互”。

双流架构设计

DUST的架构以“多模态扩散Transformer（MMDiT）”为核心，分为三层结构：

基础条件层：预训练VLM（Eagle-2）处理当前观测和指令，输出语义特征，为后续扩散模型提供全局条件；
双流MMDiT层：动作流（处理带噪声动作）和视觉流（处理带噪声未来嵌入）保持独立传递，仅在跨模态注意力层临时合并——此设计既避免模态干扰，又能交换信息（如动作流告知视觉流“即将执行的动作”，视觉流告知动作流“预期的未来状态”）；
模态特异性DiT层：MMDiT输出后，动作流和视觉流分别进入独立的DiT块（论文用4层），进行细粒度去噪——动作流聚焦时序平滑性，视觉流聚焦语义一致性；
关键细节：每个流通过自适应层归一化（AdaLN） 引入独立的时间步嵌入（动作流用，视觉流用），确保模态按自身节奏学习去噪。

解耦联合训练算法

核心是“模态独立噪声调度”，让动作和视觉按自身特性学习，同时捕捉双向因果关系：

独立噪声注入：

动作噪声：采样和，生成带噪声动作；
视觉噪声：采样和，生成带噪声视觉嵌入；
双目标损失：模型同时优化动作预测和世界建模损失，总损失为两者加权和：

其中，和分别是动作流和视觉流的速度场预测，是平衡两目标的超参数（消融实验显示最优，table 6c）；

双向因果学习：独立噪声调度允许模型学习“反向因果”（如从噪声动作预测清晰视觉嵌入，即“什么动作能导致该状态”）和“正向因果”（如从清晰动作预测噪声视觉嵌入，即“该动作会导致什么状态”），比单向因果更全面捕捉模态关联。

视觉-动作联合采样（测试时缩放）

推理阶段，动作和视觉的去噪需求存在差异：视觉嵌入维度高、结构复杂，需更多去噪步骤；动作维度低、时序平滑，少量步骤即可收敛。为此，DUST提出异步联合采样策略：

步数设定：动作去噪步数为，视觉去噪步数为（为整数，默认1，可调整）；
异步更新：

视觉流：每步更新，步长；
动作流：每步更新，步长；
数学表达：

此设计可在“推理速度”和“预测精度”间灵活权衡：增大提升视觉去噪精度（进而提升动作合理性），但增加推理时间；反之则提速但可能降低精度。

五、实验验证与分析

论文从“仿真场景”“真实场景”“迁移能力”“组件有效性”四个维度验证DUST，基线模型为当前SOTA的GR00T-N1.5和其FLARE增强版（论文复现）。

主要结果：模拟与真实场景

模拟场景（RoboCasa与GR-1）

RoboCasa（单臂厨房操作，24任务）：table 1显示，100个演示数据下，DUST平均成功率比GR00T-N1.5高18%、比FLARE高5%；即使演示数据增至1000个，优势仍保持，证明其数据效率与 scalability；

GR-1（人形机器人桌面操作，24任务）：table 2显示，300/1000个演示数据下，DUST在拾取放置（PnP）和关节操作（Art.）任务中均优于基线，尤其在复杂关节任务中提升更明显（因需更精准的环境动态建模）。

真实场景（Franka Research 3机械臂）

任务：4个拾取放置任务，涉及不同物体（泰迪熊、蓝 cube、蓝杯、海绵）和源-目标配置；
结果：table 3显示，DUST平均成功率比GR00T-N1.5高13%、比FLARE高12%；定性对比（figure 5）显示，DUST因能预测未来状态，可调整机械臂姿态以精准对齐目标（如杯口），而GR00T-N1.5易出现姿态偏差导致抓取失败。

迁移学习：利用无动作视频预训练

机器人演示数据采集成本高（需遥操作），而无动作视频（如人类日常操作视频）易大规模获取。DUST的双流架构支持“无动作视频预训练→机器人数据微调”的迁移范式：

预训练：在BridgeV2无动作视频数据集上训练，仅优化世界建模损失（动作流随机初始化）；
微调：用RoboCasa 100个演示数据微调全模型；
结果：table 4显示，预训练后DUST平均成功率从0.501提升至0.585，证明其能利用低成本视频数据学习环境动态，降低对机器人演示的依赖。

测试时缩放：异步采样的有效性

table 5显示，增大视觉去噪步数（从4到64）：

RoboCasa：1000个演示数据下，平均成功率提升2-3%；
GR-1：1000个演示数据下，32步时提升5%（64步略有下降，因过度去噪引入冗余）；
对比同步采样：table 7显示，若同时增大和，成功率反而下降——证明动作无需过多去噪，异步采样是平衡精度与速度的关键。

消融实验：组件必要性

table 6验证DUST核心组件的作用：

架构与噪声调度（table 6a）：仅MMDiT架构（无解决耦噪声）或仅解耦噪声（无MMDiT）均导致性能下降，只有两者结合（DUST）才能达到最优，证明“双流架构+解耦训练”的协同性；
MMDiT层数（table 6b）：12层MMDiT+4层模态DiT最优，层数过少则跨模态信息交换不足，过多则引入冗余；
损失权重（table 6c）：时最优，过小则世界建模不足（无法捕捉环境动态），过大则动作预测被压制（导致动作与指令脱节）。

六、结论与展望

DUST的核心贡献的是提出“双流扩散”范式，在VLA模型中实现“模态特异性建模”与“跨模态知识共享”的平衡，具体创新点包括：

双流MMDiT架构：保持动作与视觉流独立，仅通过跨模态注意力交换信息，避免模态干扰；
解耦训练算法：独立噪声调度+双目标损失，支持双向因果学习，更全面捕捉动作-视觉关联；
异步联合采样：推理时按模态需求分配去噪步数，灵活权衡精度与速度。

实验证明，DUST在模拟/真实场景中均优于SOTA，且能利用无动作视频预训练降低数据成本。未来可进一步探索：

更大规模预训练：结合更多无动作视频（如互联网-scale数据），提升模型对多样环境的适应能力；
多模态扩展：融入触觉、力觉等模态，进一步增强机器人对环境的感知与动态建模能力。

参考

[1] DUAL-STREAM DIFFUSION FOR WORLD-MODEL AUGMENTED VISION-LANGUAGE-ACTION MODEL