>>直播和内容获取转到→
点击按钮预约直播
世界模型正在成为具身仿真与交互式环境的核心底层接口。
现有开源系统虽已能实现分钟级、动作条件驱动的视频推演生成,但普遍存在模型参数量大、训练数据集庞大、训练周期漫长、推理需多卡集群等问题。

SANA-WM的提出,以高效性作为首要设计目标,这是一款仅26亿参数的开源视频世界模型,原生面向一分钟视频生成任务训练,基于21.3万条带公制位姿监督的公开视频片段,依托64张H100显卡15天即可完成训练。
实验数据表明,SANA-WM的动作跟随精度优于现有开源基线模型,视觉画质与之持平,生成吞吐速率最高提升36倍。

更具落地价值的是,它将分钟级视频生成降至单GPU推理即可实现:双向版本与分块因果版本可在单张H100上运行,蒸馏版本经NVFP4量化后,单张RTX 5090仅需34秒即可完成1分钟视频生成。
本次直播具身智能之心将会和核心贡献者朱皓怡博士一起,深入探讨这个高效、动作跟随精度优、自带“精修”的世界模型是如何搭建的,未来会如何用于具身训练。
分享介绍

分享人简介:
朱皓怡,中国科学技术大学三年级直博生,英伟达研究实习生,本科毕业于上海交大人工智能荣誉班。博士期间已在AI顶会发表论文20余篇,其中5篇一作,谷歌学术引用超过3100余次。研究方向主要聚焦于世界模型。最新工作SANA-WM构建了分钟级的高效世界模型,获得了广泛的关注,发布以来Github仓库star数量净增长超过2.5k余次,推特点赞超过1k余次,被英伟达官方推特账号宣传。过去的代表工作中,朱皓怡构建了统一的4D世界模型Aether,获得了ICCV RIWM Workshop杰出论文奖;开发了带有几何空间记忆的自回归4D世界模型DeepVerse;参与了大规模多模态世界模型数据集OmniWorld,从数据到表征到模型,全面推动了可扩展世界模型的发展。

分享人说:
世界模型正在成为AI领域新的热潮,而实用的世界模型需要长时序和高效。我们在SANA-WM这个工作里面,围绕数据、训练、推理三个维度的高效性进行探究原生训练分钟级别的高效世界模型。SANA-WM通过Hybrid Linear Diffusion Transformer,实现64卡训练、单卡实时推理。我们相信这对于未来在游戏、自动驾驶、机器人等领域的应用有很大的发展前景。

推荐阅读: