腾讯发布HunyuanWorld-Voyager，斯坦福测试排名第一，网友：3D生成终于不漂了

资讯配图

腾讯混元 AI 团队近日发布了 HunyuanWorld-Voyager。

这是世界首个开源的超长程世界模型，并原生支持 3D 重建。

单张照片，生成一个可探索的 3D 世界

HunyuanWorld-Voyager 只需一张照片，就能生成一个可供用户自由探索的 3D 世界。

更重要的是，当视角在其中移动时，整个世界能保持高度的连贯与一致性。

目前，这个强大的项目已经完全开源，向全球开发者和研究者开放。

它的本质是一个 RGB-D 视频扩散模型，能根据单张图片和相机路径，同步生成彩色图像和深度数据。

这项能力使它摆脱了传统的运动恢复结构或多视图立体视觉技术，实现了对场景的直接重建。

它的核心秘诀在于一套名为世界缓存的机制。这个缓存就像一个动态的记忆库，持续记录并更新所有已生成的场景部分。

当视角移动时，模型会从缓存中调取历史画面的点云数据，并将其投影到新视角上，从而确保几何结构和物体遮挡关系在长距离移动中保持稳定。

资讯配图

为了让缓存系统高效运行，团队还设计了两项关键优化：点剔除技术能自动清理冗余数据，平滑采样技术则能无缝拼接不同视频片段。

这两项技术的结合，使缓存数据量减少了约 40%，有效避免了因场景扩展带来的性能瓶颈。

在训练阶段，模型通过学习超过 10 万个视频片段的相机位姿和度量深度，掌握了在用户控制下进行稳定、不漂移的路径生成能力。

在权威的 WorldScore 基准测试中，HunyuanWorld-Voyager 以 77.62 的高分位列第一，其相机控制和 3D 一致性表现远超同类模型。

在实际运行中，它的资源消耗对于专业实验室是完全可行的。由于深度信息是原生生成的，它可以直接输出 3D 模型，无需额外处理。

这项技术的突破在于，它不再将 3D 几何构建视为一个后期处理步骤，而是将其深度融入了视频生成的全过程，极大地拉近了视频生成与实用 3D 应用的距离。

这意味着它产出的不再是那些画面虽美、但空间关系混乱漂移的视频片段，而是一个布局高度一致的稳定世界。

对于需要长时程、高保真环境模拟的虚拟现实（VR）和机器人领域而言，HunyuanWorld-Voyager 无疑奠定了一块坚实的技术基石。

参考资料：https://3d-models.hunyuan.tencent.com/world/

https://3d-models.hunyuan.tencent.com/voyager/voyager_en/assets/HYWorld_Voyager.pdf

https://huggingface.co/tencent/HunyuanWorld-Voyager

https://github.com/Tencent-Hunyuan/HunyuanWorld-Voyager

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！