腾讯发布HunyuanWorld-Voyager,斯坦福测试排名第一,网友:3D生成终于不漂了

智能情报所 2025-09-04 17:03

资讯配图

腾讯混元 AI 团队近日发布了 HunyuanWorld-Voyager。

这是世界首个开源的超长程世界模型,并原生支持 3D 重建。

单张照片,生成一个可探索的 3D 世界

HunyuanWorld-Voyager 只需一张照片,就能生成一个可供用户自由探索的 3D 世界。

更重要的是,当视角在其中移动时,整个世界能保持高度的连贯与一致性。

目前,这个强大的项目已经完全开源,向全球开发者和研究者开放。

它的本质是一个 RGB-D 视频扩散模型,能根据单张图片和相机路径,同步生成彩色图像和深度数据。

这项能力使它摆脱了传统的运动恢复结构或多视图立体视觉技术,实现了对场景的直接重建。

核心技术:一个会记忆且不断优化的世界缓存

它的核心秘诀在于一套名为世界缓存的机制。这个缓存就像一个动态的记忆库,持续记录并更新所有已生成的场景部分。

当视角移动时,模型会从缓存中调取历史画面的点云数据,并将其投影到新视角上,从而确保几何结构和物体遮挡关系在长距离移动中保持稳定。

资讯配图

为了让缓存系统高效运行,团队还设计了两项关键优化:点剔除技术能自动清理冗余数据,平滑采样技术则能无缝拼接不同视频片段。

这两项技术的结合,使缓存数据量减少了约 40%,有效避免了因场景扩展带来的性能瓶颈。

在训练阶段,模型通过学习超过 10 万个视频片段的相机位姿和度量深度,掌握了在用户控制下进行稳定、不漂移的路径生成能力。

告别漂移:为 VR 和机器人领域奠定坚实基础

在权威的 WorldScore 基准测试中,HunyuanWorld-Voyager 以 77.62 的高分位列第一,其相机控制和 3D 一致性表现远超同类模型。

在实际运行中,它的资源消耗对于专业实验室是完全可行的。由于深度信息是原生生成的,它可以直接输出 3D 模型,无需额外处理。

这项技术的突破在于,它不再将 3D 几何构建视为一个后期处理步骤,而是将其深度融入了视频生成的全过程,极大地拉近了视频生成与实用 3D 应用的距离。

这意味着它产出的不再是那些画面虽美、但空间关系混乱漂移的视频片段,而是一个布局高度一致的稳定世界。

对于需要长时程、高保真环境模拟的虚拟现实(VR)和机器人领域而言,HunyuanWorld-Voyager 无疑奠定了一块坚实的技术基石。

参考资料:https://3d-models.hunyuan.tencent.com/world/

https://3d-models.hunyuan.tencent.com/voyager/voyager_en/assets/HYWorld_Voyager.pdf

https://huggingface.co/tencent/HunyuanWorld-Voyager

https://github.com/Tencent-Hunyuan/HunyuanWorld-Voyager


一键三连点赞」「转发」「小心心

欢迎在评论区留下你的想法!


声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
测试
more
8家非上市半导体测试机设备企业竞争力解析
【AI Agent展】安恒信息AI渗透测试智能体——让渗透测试更高效、更智能!
顶住压力,一扫低迷!「星舰10飞」多项关键测试成功
特斯拉在日本启动自动驾驶汽车公共道路测试
AI高速芯片测试技术研讨会(珠海)
小米 SU7「加长版」测试车外观曝光;Meta 被指控使用盗版成人影片训练模型;英伟达推出史上最强迷你 PC | 极客早知道
汽车碰撞测试真的有用吗
倒计时5天!西门子EDA年度大会-AI EDA|3DIC|IC设计及验证|物理设计及验证|制造与测试[上海]
测试测量大会(上海)--NI Days 2025邀您共探AI+测试新纪元
潮讯:OriginOS6开启Beta测试招募;iPhone16Pro系列国内销量超2500万;传京东杀回社区团购
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号