
欢迎关注具身智能大讲堂

在具身智能领域,数据匮乏与高昂的采集成本长期制约着机器人技术的规模化发展。以特斯拉机器人Optimus为例,其训练需要数百万小时的真机数据,采集成本高达数亿美元。
然而,这一行业困境正被一项来自中国的研究突破所改写——7月25日,清华大学与生数科技联合发布的Vidar模型,为困扰具身智能行业多年的数据困境提出创新解决方案。
它通过创新的“视频大模型+具身智能”技术路径,能够有效实现低成本、少样本机器训练,仅用20分钟数据即可达到高度泛化性,大幅降低了在机器人上大规模泛化的数据门槛,为行业提供了一条高效、低成本的替代方案,为机器人在真实世界执行各类复杂任务带来真正的泛化性曙光。

1► Vidar 横空出世,机器人训练进入"快充时代"
作为视频大模型Vidu在具身智能领域延伸的重大突破,Vidar是全球首个基于通用视频大模型实现视频理解能力向物理决策系统性迁移的多视角具身基座模型。该模型创新性地构建了支持机器人双臂协同任务的多视角视频预测框架,在保持SOTA性能的同时,展现出显著的少样本学习优势。微调后的模型可完成多视角双臂任务,做到“说什么指令,做什么事情”。
Vidar真实场景演示视频

Vidar整体架构:视频扩散模型预测完成指定任务的视频,经过逆动力学模型解码为机械臂动作
Vidar的核心突破是通过解构具身任务的执行范式,将其划分为上游视频预测和下游动作执行的方法,从而充分利用“海量通用视频 - 中等规模具身视频 - 少量机器人特定数据”构成的三级数据金字塔。
其中,视频预测部分通过利用海量视频数据训练的Vidu基座,结合中等规模的具身视频数据对Vidu继续进行预训练,得到新的视频基座模型获得了少样本泛化到新的机器人本体的能力。而下游执行部分,通过学习逆动力学模型(IDM),将视频翻译为对应的机械臂动作,从而实现了视觉-语言模态和动作模态的完全解耦。该技术路线突破了数据瓶颈,有望真正实现具身基座模型的scaling law。

此次研究成果显著突破了机器人在多任务操作和灵活应对环境变化两方面的能力瓶颈,为未来服务机器人在居家、医院、工厂等复杂真实环境中大展拳脚铺就了坚实可靠的技术基石。这同时也意味着从虚拟世界的算法演练,到真实环境的自主行动,Vidar正在架起这道关键的桥梁,让AI终于能够“脚踏实地”地服务于我们的物理世界。
2► 技术溯源:从视频理解到具身执行的创新路径
Vidar (Video Diffusion for Action Reasoning),在命名上保留技术同源的生数科技旗下视频大模型“Vidu”的前缀,延续雷达(Radar)灵敏的感知隐喻,突出其与“Vidu用想象生成视频宇宙的无限"生成能力相比,能够打通视频生成的虚拟世界及具身物理的真实世界之间多重能力,在继承U-ViT架构提供的关键技术如长时序建模、多视角一致性保持等方面具有显著优势,是基于在视频大模型领域的系列原创性工作在具身领域的再次创新。
2022 年 9 月,团队研发的 U-ViT 网络架构是全球首个 Diffusion 和 Transformer 融合的架构,早于 Sora 采用的 DiT 架构,为视频生成与理解建立了新的理论框架。基于这一突破性研究,2024年4月团队发布中国首个支持16秒1080p高清视频生成的全国产自研通用视频大模型Vidu,其创新的多镜头生成能力、高时空一致性和真实物理世界模拟能力,达到国际领先水平。2025年4月全新发布的Vidu Q1模型,在权威评测基准VBench-1.0和VBench-2.0中,获得文生视频赛道双榜全球第一。在国内权威大模型测评机构SuperCLUE的图生视频榜获得动漫风格、写实风格第一。2025年7月,Vidu Q1重磅推出的参考生功能,凭借突破性的多主体一致性解决方案,进一步夯实了Vidu在参考生领域的技术引领地位。
如今,基于Vidu通用视频大模型的Vidar模型的悄然诞生,则标志着这一创新技术路线在具身智能领域的重大延伸。
“基于我们的技术理念和统一的基座大模型架构,Vidu与Vidar均致力于解决复杂时空信息的理解与生成。此次推出的Vidar,是全球首个采用多模态生成模型架构解决物理世界问题,并达到该领域SOTA水平的机器人大模型。这不仅彰显了Vidu的强大基模能力及其架构的卓越扩展性,也将通过强化对物理世界的认知,反哺Vidu在数字世界视频创作中对物理规律的理解与生成能力。二者相互促进,共同推动实现我们的终极愿景:提升所有劳动者(人类、Agent与机器人)的生产力。”
生数科技创始人兼首席科学家朱军教授表示:"我们致力于通过多模态大模型技术推动数字世界与物理世界的深度融合与协同进化。一方面,我们正在打造新一代数字内容创作引擎,让AI成为人类创意的延伸;另一方面,我们通过训练具身视频基座模型,实现虚拟与现实的深度交互。"
END
往
期
精
选
科技热点
大咖观点
热点评论
新品速递

微信号|具身智能大讲堂
专注AI具身智能产业前沿话题
加入社群
欢迎加入【具身智能大讲堂】读者讨论群,共同探讨具身智能机器人相关领域话题,共享前沿科技及产业动态。
添加微信号(Robospeak2015)或堂博士手机号(15611695072)备注“具身茶谈”可进入交流群。
兼职作者&投稿
机器人大讲堂正在招募【兼职内容创作者】,如果您对撰写机器人【科技类】或【产业类】文章感兴趣,可添加微信:李鑫(13581537940,手机与微信号相同)。我们对职业、所在地等没有要求,欢迎朋友们的加入!