KAIST团队:基于双流扩散的世界模型增强VLA模型

具身智能之心 2025-11-05 08:00

一、研究背景与核心问题

视觉-语言-动作模型(VLAs)是当前机器人通用策略学习的重要方向,其基于互联网规模多模态数据预训练的视觉-语言模型(VLMs)扩展而来,能生成适配新物体、场景和指令的动作。但这类模型存在关键缺陷:无法建模动作对环境的影响,缺乏对物理过程的显式理解,导致策略泛化性和鲁棒性受限。

为解决这一问题,近年研究尝试用“世界建模”增强VLAs——即让模型同时预测未来视觉观测和动作序列,以捕捉动作与视觉结果间的潜在动态。但现有方案面临模态冲突的核心挑战:

  • 统一联合扩散架构(如PAD、EnerVerse):将动作和视觉模态拼接后用单一模型处理,默认两者共享潜空间。但动作需低维、时序平滑的输出,视觉需高维、空间结构化的输出,强行统一会导致两个目标互相干扰(figure 1a);
  • 因果扩散架构(如Video Policy):用分离模型处理两种模态,但仅支持单向条件传递(如用动作预测视觉),无法实现双向知识迁移,限制跨模态信息利用(figure 1b)。
KAIST团队:基于双流扩散的世界模型增强VLA模型图2

为此,本工作提出双流扩散框架(DUST),核心目标是在保持模态特异性的同时实现跨模态知识共享,解决联合预测的模态冲突问题。

二、相关工作梳理

视觉-语言-动作模型(VLAs)

VLAs的核心是将VLMs适配机器人任务,主要分为两类动作生成方式:

  • 自回归生成:直接按时间步生成动作序列;
  • 扩散生成:通过扩散模型学习动作的概率分布(如π0、GR00T-N1.5),论文采用此类方案,因其更易建模复杂动作分布。

现有VLAs多聚焦于“模仿学习”,即学习演示数据中的动作分布,却忽略了“动作如何影响未来状态”的物理动态建模——这正是DUST需补充的核心方向。

机器人策略学习的世界建模

世界建模的核心是让模型预测未来状态,以增强对环境动态的理解,现有方案可从“架构设计”和“状态表示”两维度划分:

  • 架构设计:
    • 统一架构:用单一模型联合处理动作和视觉(如PAD、EnerVerse、UWM),部分方案(如FLARE)通过对齐中层特征避免直接扩散视觉,但仍未解决模态冲突;
    • 分离架构:用独立模型处理两种模态,但仅支持单向条件传递(如Video Policy),无法双向利用信息。
  • 状态表示:
    • 像素级预测:直接预测下一帧RGB图像(如PAD、PIDM),易陷入高频视觉细节(如光影变化),这些细节对控制无关却增加建模成本;
    • 嵌入级预测:预测预训练编码器(如DINOV2、Q-Former)提取的视觉嵌入(如DINO-WM、FLARE),聚焦语义结构而非像素——DUST采用此方案,平衡建模效率与控制相关性。

三、预备知识

问题设定

  • 数据集:由专家演示轨迹组成,每个轨迹包含任务指令、观测序列和动作序列
  • 观测:包含视觉观测(图像)和机器人本体感受状态(如关节角度);
  • 动作:按“动作块”分组(),为块大小,目的是捕捉时序关联性;
  • 目标:给定,预测动作块

VLA模型基础

DUST的VLA基础遵循扩散类VLA的通用设计:

  1. 语义特征提取:用预训练VLM(论文采用Eagle-2)处理,得到语义特征
  2. 动作扩散模型:用扩散Transformer(DiT)作为“动作专家”,基于预测动作,训练目标为Flow Matching损失

其中,为时间步,为高斯噪声),是预测“速度场”的网络,目标是让预测速度场逼近真实速度场

  1. 推理过程:初始化动作噪声,通过欧拉方法迭代去噪生成动作:

为动作去噪步数。

世界建模基础

世界建模的目标是预测“执行动作块后的未来视觉状态”,但不直接预测像素,而是预测未来视觉嵌入

  • 用VLM的视觉编码器处理未来视觉观测,得到嵌入
  • 模型目标:基于预测,避免像素级建模的冗余成本。

四、DUST方法详解

DUST通过“架构设计”“训练算法”“采样策略”三部分协同解决模态冲突,核心是“解耦模态处理,保留跨模态交互”。

双流架构设计

KAIST团队:基于双流扩散的世界模型增强VLA模型图3

DUST的架构以“多模态扩散Transformer(MMDiT)”为核心,分为三层结构:

  1. 基础条件层:预训练VLM(Eagle-2)处理当前观测和指令,输出语义特征,为后续扩散模型提供全局条件;
  2. 双流MMDiT层:动作流(处理带噪声动作)和视觉流(处理带噪声未来嵌入)保持独立传递,仅在跨模态注意力层临时合并——此设计既避免模态干扰,又能交换信息(如动作流告知视觉流“即将执行的动作”,视觉流告知动作流“预期的未来状态”);
  3. 模态特异性DiT层:MMDiT输出后,动作流和视觉流分别进入独立的DiT块(论文用4层),进行细粒度去噪——动作流聚焦时序平滑性,视觉流聚焦语义一致性;
  4. 关键细节:每个流通过自适应层归一化(AdaLN) 引入独立的时间步嵌入(动作流用,视觉流用),确保模态按自身节奏学习去噪。

解耦联合训练算法

核心是“模态独立噪声调度”,让动作和视觉按自身特性学习,同时捕捉双向因果关系:

  1. 独立噪声注入:
  • 动作噪声:采样,生成带噪声动作
  • 视觉噪声:采样,生成带噪声视觉嵌入
  • 双目标损失:模型同时优化动作预测和世界建模损失,总损失为两者加权和:

其中,分别是动作流和视觉流的速度场预测,是平衡两目标的超参数(消融实验显示最优,table 6c);

  1. 双向因果学习:独立噪声调度允许模型学习“反向因果”(如从噪声动作预测清晰视觉嵌入,即“什么动作能导致该状态”)和“正向因果”(如从清晰动作预测噪声视觉嵌入,即“该动作会导致什么状态”),比单向因果更全面捕捉模态关联。

视觉-动作联合采样(测试时缩放)

推理阶段,动作和视觉的去噪需求存在差异:视觉嵌入维度高、结构复杂,需更多去噪步骤;动作维度低、时序平滑,少量步骤即可收敛。为此,DUST提出异步联合采样策略

KAIST团队:基于双流扩散的世界模型增强VLA模型图4
  1. 步数设定:动作去噪步数为,视觉去噪步数为为整数,默认1,可调整);
  2. 异步更新:
  • 视觉流:每步更新,步长
  • 动作流:每步更新,步长
  • 数学表达:
KAIST团队:基于双流扩散的世界模型增强VLA模型图5

此设计可在“推理速度”和“预测精度”间灵活权衡:增大提升视觉去噪精度(进而提升动作合理性),但增加推理时间;反之则提速但可能降低精度。

五、实验验证与分析

论文从“仿真场景”“真实场景”“迁移能力”“组件有效性”四个维度验证DUST,基线模型为当前SOTA的GR00T-N1.5和其FLARE增强版(论文复现)。

主要结果:模拟与真实场景

模拟场景(RoboCasa与GR-1)

  • RoboCasa(单臂厨房操作,24任务):table 1显示,100个演示数据下,DUST平均成功率比GR00T-N1.5高18%、比FLARE高5%;即使演示数据增至1000个,优势仍保持,证明其数据效率与 scalability;
KAIST团队:基于双流扩散的世界模型增强VLA模型图6
  • GR-1(人形机器人桌面操作,24任务):table 2显示,300/1000个演示数据下,DUST在拾取放置(PnP)和关节操作(Art.)任务中均优于基线,尤其在复杂关节任务中提升更明显(因需更精准的环境动态建模)。
KAIST团队:基于双流扩散的世界模型增强VLA模型图7

真实场景(Franka Research 3机械臂)

  • 任务:4个拾取放置任务,涉及不同物体(泰迪熊、蓝 cube、蓝杯、海绵)和源-目标配置;
  • 结果:table 3显示,DUST平均成功率比GR00T-N1.5高13%、比FLARE高12%;定性对比(figure 5)显示,DUST因能预测未来状态,可调整机械臂姿态以精准对齐目标(如杯口),而GR00T-N1.5易出现姿态偏差导致抓取失败。
KAIST团队:基于双流扩散的世界模型增强VLA模型图8
KAIST团队:基于双流扩散的世界模型增强VLA模型图9

迁移学习:利用无动作视频预训练

机器人演示数据采集成本高(需遥操作),而无动作视频(如人类日常操作视频)易大规模获取。DUST的双流架构支持“无动作视频预训练→机器人数据微调”的迁移范式:

  • 预训练:在BridgeV2无动作视频数据集上训练,仅优化世界建模损失(动作流随机初始化);
  • 微调:用RoboCasa 100个演示数据微调全模型;
  • 结果:table 4显示,预训练后DUST平均成功率从0.501提升至0.585,证明其能利用低成本视频数据学习环境动态,降低对机器人演示的依赖。
KAIST团队:基于双流扩散的世界模型增强VLA模型图10

测试时缩放:异步采样的有效性

table 5显示,增大视觉去噪步数(从4到64):

KAIST团队:基于双流扩散的世界模型增强VLA模型图11
  • RoboCasa:1000个演示数据下,平均成功率提升2-3%;
  • GR-1:1000个演示数据下,32步时提升5%(64步略有下降,因过度去噪引入冗余);
  • 对比同步采样:table 7显示,若同时增大,成功率反而下降——证明动作无需过多去噪,异步采样是平衡精度与速度的关键。
KAIST团队:基于双流扩散的世界模型增强VLA模型图12

消融实验:组件必要性

table 6验证DUST核心组件的作用:

KAIST团队:基于双流扩散的世界模型增强VLA模型图13
  • 架构与噪声调度(table 6a):仅MMDiT架构(无解决耦噪声)或仅解耦噪声(无MMDiT)均导致性能下降,只有两者结合(DUST)才能达到最优,证明“双流架构+解耦训练”的协同性;
  • MMDiT层数(table 6b):12层MMDiT+4层模态DiT最优,层数过少则跨模态信息交换不足,过多则引入冗余;
  • 损失权重(table 6c):时最优,过小则世界建模不足(无法捕捉环境动态),过大则动作预测被压制(导致动作与指令脱节)。

六、结论与展望

DUST的核心贡献的是提出“双流扩散”范式,在VLA模型中实现“模态特异性建模”与“跨模态知识共享”的平衡,具体创新点包括:

  1. 双流MMDiT架构:保持动作与视觉流独立,仅通过跨模态注意力交换信息,避免模态干扰;
  2. 解耦训练算法:独立噪声调度+双目标损失,支持双向因果学习,更全面捕捉动作-视觉关联;
  3. 异步联合采样:推理时按模态需求分配去噪步数,灵活权衡精度与速度。

实验证明,DUST在模拟/真实场景中均优于SOTA,且能利用无动作视频预训练降低数据成本。未来可进一步探索:

  • 更大规模预训练:结合更多无动作视频(如互联网-scale数据),提升模型对多样环境的适应能力;
  • 多模态扩展:融入触觉、力觉等模态,进一步增强机器人对环境的感知与动态建模能力。

参考

[1] DUAL-STREAM DIFFUSION FOR WORLD-MODEL AUGMENTED VISION-LANGUAGE-ACTION MODEL

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI
more
别争了,OpenAI才是云厂商的「最大甲方」
这群大学生,正在教 OPPO 做 AI 产品
卧槽!荣耀Magic8 Air也要安排!
“蔚小理”集体变阵,人事调整下的AI大模型之争
【前沿】苹果AI国行何时到来
AI算力大战打到太空!英伟达前脚H100入轨,谷歌TPU后脚上天,中国玩家笑而不语
AI算力产业链的重构(二):2026年能力拐点与供应链权力转移
2700亿!OpenAI签了亚马逊
英伟达深化与三星、SK 海力士合作,共研 AI 存储技术
KAIST团队:基于双流扩散的世界模型增强VLA模型
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号