腾讯混元 AI 团队近日发布了 HunyuanWorld-Voyager。
这是世界首个开源的超长程世界模型,并原生支持 3D 重建。
单张照片,生成一个可探索的 3D 世界
HunyuanWorld-Voyager 只需一张照片,就能生成一个可供用户自由探索的 3D 世界。
更重要的是,当视角在其中移动时,整个世界能保持高度的连贯与一致性。
目前,这个强大的项目已经完全开源,向全球开发者和研究者开放。
它的本质是一个 RGB-D 视频扩散模型,能根据单张图片和相机路径,同步生成彩色图像和深度数据。
这项能力使它摆脱了传统的运动恢复结构或多视图立体视觉技术,实现了对场景的直接重建。
核心技术:一个会记忆且不断优化的世界缓存
它的核心秘诀在于一套名为世界缓存的机制。这个缓存就像一个动态的记忆库,持续记录并更新所有已生成的场景部分。
当视角移动时,模型会从缓存中调取历史画面的点云数据,并将其投影到新视角上,从而确保几何结构和物体遮挡关系在长距离移动中保持稳定。
为了让缓存系统高效运行,团队还设计了两项关键优化:点剔除技术能自动清理冗余数据,平滑采样技术则能无缝拼接不同视频片段。
这两项技术的结合,使缓存数据量减少了约 40%,有效避免了因场景扩展带来的性能瓶颈。
在训练阶段,模型通过学习超过 10 万个视频片段的相机位姿和度量深度,掌握了在用户控制下进行稳定、不漂移的路径生成能力。
告别漂移:为 VR 和机器人领域奠定坚实基础
在权威的 WorldScore 基准测试中,HunyuanWorld-Voyager 以 77.62 的高分位列第一,其相机控制和 3D 一致性表现远超同类模型。
在实际运行中,它的资源消耗对于专业实验室是完全可行的。由于深度信息是原生生成的,它可以直接输出 3D 模型,无需额外处理。
这项技术的突破在于,它不再将 3D 几何构建视为一个后期处理步骤,而是将其深度融入了视频生成的全过程,极大地拉近了视频生成与实用 3D 应用的距离。
这意味着它产出的不再是那些画面虽美、但空间关系混乱漂移的视频片段,而是一个布局高度一致的稳定世界。
对于需要长时程、高保真环境模拟的虚拟现实(VR)和机器人领域而言,HunyuanWorld-Voyager 无疑奠定了一块坚实的技术基石。
参考资料:https://3d-models.hunyuan.tencent.com/world/
https://3d-models.hunyuan.tencent.com/voyager/voyager_en/assets/HYWorld_Voyager.pdf
https://huggingface.co/tencent/HunyuanWorld-Voyager
https://github.com/Tencent-Hunyuan/HunyuanWorld-Voyager
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!