对话朱皓怡 | 分钟级生成、单卡可部署的世界模型SANA-WM(中科大&英伟达)

具身智能之心 2026-06-17 13:00
点击下方卡片,关注“具身智能之心”公众号


>>直播和内容获取转到→


点击按钮预约直播


世界模型正在成为具身仿真与交互式环境的核心底层接口。

现有开源系统虽已能实现分钟级、动作条件驱动的视频推演生成,但普遍存在模型参数量大、训练数据集庞大、训练周期漫长、推理需多卡集群等问题。


对话朱皓怡 | 分钟级生成、单卡可部署的世界模型SANA-WM(中科大&英伟达)图1


SANA-WM的提出,以高效性作为首要设计目标,这是一款仅26亿参数的开源视频世界模型,原生面向一分钟视频生成任务训练,基于21.3万条带公制位姿监督的公开视频片段,依托64张H100显卡15天即可完成训练。

实验数据表明,SANA-WM的动作跟随精度优于现有开源基线模型,视觉画质与之持平,生成吞吐速率最高提升36倍。

对话朱皓怡 | 分钟级生成、单卡可部署的世界模型SANA-WM(中科大&英伟达)图2


更具落地价值的是,它将分钟级视频生成降至单GPU推理即可实现:双向版本与分块因果版本可在单张H100上运行,蒸馏版本经NVFP4量化后,单张RTX 5090仅需34秒即可完成1分钟视频生成。

本次直播具身智能之心将会和核心贡献者朱皓怡博士一起,深入探讨这个高效、动作跟随精度优、自带“精修”的世界模型是如何搭建的,未来会如何用于具身训练。


分享介绍


对话朱皓怡 | 分钟级生成、单卡可部署的世界模型SANA-WM(中科大&英伟达)图3


分享人简介:


朱皓怡,中国科学技术大学三年级直博生,英伟达研究实习生,本科毕业于上海交大人工智能荣誉班。博士期间已在AI顶会发表论文20余篇,其中5篇一作,谷歌学术引用超过3100余次。研究方向主要聚焦于世界模型。最新工作SANA-WM构建了分钟级的高效世界模型,获得了广泛的关注,发布以来Github仓库star数量净增长超过2.5k余次,推特点赞超过1k余次,被英伟达官方推特账号宣传。过去的代表工作中,朱皓怡构建了统一的4D世界模型Aether,获得了ICCV RIWM Workshop杰出论文奖;开发了带有几何空间记忆的自回归4D世界模型DeepVerse;参与了大规模多模态世界模型数据集OmniWorld,从数据到表征到模型,全面推动了可扩展世界模型的发展。


对话朱皓怡 | 分钟级生成、单卡可部署的世界模型SANA-WM(中科大&英伟达)图4



分享人说:

世界模型正在成为AI领域新的热潮,而实用的世界模型需要长时序和高效。我们在SANA-WM这个工作里面,围绕数据、训练、推理三个维度的高效性进行探究原生训练分钟级别的高效世界模型。SANA-WM通过Hybrid Linear Diffusion Transformer,实现64卡训练、单卡实时推理。我们相信这对于未来在游戏、自动驾驶、机器人等领域的应用有很大的发展前景。


对话朱皓怡 | 分钟级生成、单卡可部署的世界模型SANA-WM(中科大&英伟达)图5


推荐阅读:


声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
英伟达
more
行业财报 | 英伟达、博通、台积电、三星电子、SK海力士、美光等53家半导体企业2026年第一季度业绩汇总
刚刚,英伟达、海力士重磅官宣!
英伟达最强CPU,可以卖给中国
英伟达豪掷20亿美元押注光互连,黄仁勋亲赴德州奠基磷化铟新厂
5700亿热钱,抢着借给英伟达
这家公司坚决不用英伟达!
英伟达和亚马逊支持Neura Robotics14亿美元融资
田渊栋创业公司首个成果:GPU内核优化,英伟达官方榜单SOTA
95亿,英伟达投了一家机器人公司
SK海力士加速HBM4封装备产,英伟达需求推高后段产能压力
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号