从视频生成到机器人操控:VideoVLA 开启通用机器人新范式

具身智能之心 2025-12-11 12:00

在机器人操控领域,视觉 - 语言 - 动作(VLA)模型虽已实现语言指令驱动的任务执行,但在陌生物体处理、跨机器人技能迁移等泛化能力上仍存在瓶颈。现有方案多依赖预训练视觉语言理解模型,难以突破训练数据的场景限制。

由西安交通大学、微软亚洲研究院等机构联合提出的 VideoVLA 框架,创新性地将大规模视频生成模型转化为端到端 VLA 系统,通过 “动作预测 + 视觉想象” 双目标策略,首次实现了机器人在未知场景下的稳健泛化,为通用机器人操控提供了全新技术路径。

论文题目:VideoVLA: Video Generators Can Be Generalizable Robot Manipulators

论文链接:https://arxiv.org/abs/2512.06963

发表会议:39th Conference on Neural Information Processing Systems (NeurIPS 2025)

核心贡献: 首次将视频生成模型改造为通用机器人操控系统,通过联合预测动作序列与未来视觉结果,解锁跨物体、跨技能的泛化能力。

从视频生成到机器人操控:VideoVLA 开启通用机器人新范式图2

核心痛点:传统 VLA 模型的泛化困境

机器人要适应开放世界环境,需具备处理未见过的物体、任务和环境的能力,但现有技术存在三大核心局限:

泛化能力受限

传统 VLA 模型依赖预训练视觉语言理解模型,虽能降低特定任务的数据需求,但对未知物体、未学习技能的适配能力差,难以应对真实世界的多样性。

缺乏物理推理能力

机器人操控需理解动作的物理后果(如抓取物体时的受力变化、放置时的稳定性),而现有模型多专注于动作映射,缺乏对物理动态的建模。

规划能力不足

复杂任务需提前预判动作序列的视觉反馈(如 “将杯子放入抽屉” 需想象抽屉开启、杯子移动的完整过程),传统模型缺乏这种 “视觉想象 - 动作规划” 的联动机制。

技术方案:VideoVLA 的双预测架构设计

VideoVLA 以 “视频生成模型的泛化能力 + 双模态联合建模” 为核心,构建了从输入到输出的完整技术链路:

从视频生成到机器人操控:VideoVLA 开启通用机器人新范式图3

核心思路

视频生成模型从海量真实世界视频中学习了物理合理性与场景动态规律,其处理新颖文本 / 视觉输入的泛化特性,与机器人应对未知指令、未知观测的需求天然契合。VideoVLA 通过改造视频扩散 Transformer,新增动作输出模态,实现 “语言指令 + 当前视觉→动作序列 + 未来视觉” 的端到端预测。

三层技术架构

输入编码层:多模态统一表征

  • 语言编码:采用 T5 文本编码器,将自然语言指令转化为 226 维固定长度令牌序列;
  • 视觉编码:基于 CogVideoX 的 3D 因果 VAE 编码器,将视频帧转化为 latent 表征,其中第一帧 latent 直接对应当前环境观测,确保因果一致性。

核心建模层:多模态扩散 Transformer

  • 采用 Diffusion Transformer(DiT)架构,统一建模视频、语言、动作三模态;
  • 动作模态采用 7 维向量表征(3 维手腕旋转 + 3 维手腕平移 + 1 维夹爪状态),无需额外令牌化处理;
  • 通过 DDPM 扩散损失函数,联合对未来视频 latent 和动作序列进行去噪训练,确保两者语义与物理一致性。

输出层:双目标协同预测

  • 预测结果包含两部分:K 步动作序列(部署时执行前 3 步)和 N 帧未来视觉 latent(通过 VAE 解码器可还原为可视化视频);
  • 双目标预测形成闭环:高质量的未来视觉想象为动作可靠性提供隐式验证,而精准的动作序列确保视觉想象的物理可行性。

训练与推理细节

  • 预训练:基于 Open X-Embodiment 数据集(含 100 万 + 机器人轨迹、22 种机器人形态)预训练 10 万迭代;
  • 微调:真实世界实验中,使用 Realman 7 自由度机械臂采集的 “拾取、堆叠、放置” 数据集微调 1.5 万迭代;
  • 推理优化:采用 DDIM 采样(50 步去噪),仿真场景预测 49 帧未来视觉(13 个 latent),真实场景为 13 帧(4 个 latent),平衡精度与效率。

性能验证:从仿真到真实世界的全面突破

VideoVLA 从域内性能、泛化能力两大维度,在仿真(SIMPLER 环境)和真实世界场景中开展验证,核心结果如下:

域内任务:超越主流 VLA 模型

在 WidowX 和 Google 机器人的标准任务中,VideoVLA 表现突出:

从视频生成到机器人操控:VideoVLA 开启通用机器人新范式图4
  • WidowX 机器人(4 项任务)平均成功率 53.1%,远超 RT-1-X(1.1%)、Octo-Base(17.0%)等基线;

  • Google 机器人(VA 协议)平均成功率62.8%,优于 CogACT(61.4%)、π₀(43.4%)等先进模型;

从视频生成到机器人操控:VideoVLA 开启通用机器人新范式图5
  • 真实世界实验中,Realman 机器人 “放置” 任务平均成功率 56.3%,显著高于 OpenVLA(14.6%)、SpatialVLA(10.4%)。

泛化能力:跨物体、跨技能的双重突破

未知物体操控

从视频生成到机器人操控:VideoVLA 开启通用机器人新范式图6

在 YCB 和 GSO 数据集的 10 种未训练物体(如扳手、玩具飞机、手电筒)上,VideoVLA 平均成功率 65.2%,在 8 种物体上排名第一,远超 OpenVLA(6.4%)、SpatialVLA(50.8%)。

跨机器人技能迁移

从视频生成到机器人操控:VideoVLA 开启通用机器人新范式图7

将 WidowX 机器人的 8 种未训练技能(如 “倒液体”“滑动物体”)迁移到 Google 机器人,VideoVLA 平均成功率 48.6%,比第二名 CogACT(20.4%)高出 28.2 个百分点,甚至能完成 “翻转杯子”“擦拭桌面” 等差异较大的技能。

关键发现:视觉想象与执行的强相关性

实验证实,生成的未来视觉质量与任务成功率高度相关:

从视频生成到机器人操控:VideoVLA 开启通用机器人新范式图8
  • 未知物体场景中,视觉想象成功率 84.0%,实际执行成功率 65.2%;

  • 新技能场景中,视觉想象成功率 63.4%,实际执行成功率 48.6%;

从视频生成到机器人操控:VideoVLA 开启通用机器人新范式图9
  • 运动相似度分析显示,当视觉想象与实际执行的 keypoint 轨迹相似度高于 0.6 时,任务成功率超过 80%,验证了 “视觉想象引导动作规划” 的有效性。

消融实验:核心设计的必要性验证

从视频生成到机器人操控:VideoVLA 开启通用机器人新范式图10
从视频生成到机器人操控:VideoVLA 开启通用机器人新范式图11
从视频生成到机器人操控:VideoVLA 开启通用机器人新范式图12
设计模块
关键结论
预训练 backbone
CogVideoX-5B 预训练模型(80.4%)比从零训练(12.6%)性能提升 6 倍,证明视频生成模型预训练知识的价值
预测帧数量
49 帧(80.4%)优于 25 帧(77.4%)和 13 帧(75.2%),更长时间视野提升动作规划准确性
双预测策略
仅预测动作(25.5%)或无视频损失(27.0%)时,泛化能力大幅下降,验证双目标协同的核心作用

局限与未来方向

当前局限

  • 推理速度:单 H100 GPU 推理约 1.1 秒 / 步,控制频率 3Hz,难以满足高速操控场景;
  • 长序列任务:复杂多步骤任务(如 “取物 - 移动 - 放置 - 关闭抽屉”)的规划能力仍需提升;
  • 小物体处理:部分微小物体(如豌豆)在遮挡场景下的抓取成功率较低。

未来方向

  • 模型轻量化:针对机器人场景优化视频生成 backbone,降低计算开销;
  • 单步去噪:采用 ShortCut 等技术减少扩散步骤,提升推理速度;
  • 多模态融合:引入触觉、力反馈等传感器信息,增强物理交互精度。

总结:机器人操控的范式革新

VideoVLA 的核心突破在于将生成模型的泛化能力迁移到机器人操控领域,打破了传统 VLA 模型依赖视觉语言理解模型的局限:通过视频生成模型学习的物理动态与场景规律,结合 “动作 - 视觉” 双预测策略,实现了从 “见过的任务” 到 “未知场景” 的跨越。其技术框架不仅为通用机器人提供了新的训练范式,更证明了生成模型在 embodied AI 领域的巨大潜力,为人工通用智能的落地迈出了关键一步。

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
机器人
more
技术出海新样本:中国扫雪机器人的极寒挑战
自带机械臂云台?荣耀机器人手机明年量产,彻底颠覆手机形态
人形机器人如何破解非结构化环境下行走难题?
机器人产业步入爆发前夜,家用场景蓄势待发
长安汽车首款车载组件机器人即将发布
特种机器人龙头,将入主这家A股公司!
具身智能不要走那条自动驾驶的老路
「甲亢哥」因殴打人形机器人被起诉/卢伟冰回应罗福莉加入小米/GPT-5.2 或下周发布|Hunt Good周报
四川首款智能机器导盲犬“启明一号”亮相 助力视障人士自主出行
众擎、美的人形机器人新品亮相;灵生科技、优理奇等完成融资;银河通用完成股份制改造;特斯拉Optimus机器人预计2026年量产
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号