巨大进步!李飞飞“空间智能”最新成果,单个图像生成大规模3D世界,更持久、可导航、可控制

头部科技 2025-09-17 14:54
资讯配图
资讯配图
文丨谭梓馨
今天,“AI教母”、斯坦福大学教授李飞飞创办的AI公司空间智能(World Labs)发布了一项重磅新成果:Marble模型,可从单个图像生成持久的3D世界,比以往更大更好。
李飞飞表示:“这是3D世界生成领域取得的巨大进步,它让我惊叹不已!”
资讯配图
空间智能团队在介绍博客中提到,这次提高了模型生成清晰、连贯的几何图形来代表完整的3D环境的能力,并以多种多样的风格想象世界。
用户只需要给定一个图像或文本提示,Marble模型就能生成一个3D世界,还可以让你随心所欲地探索——没有时间限制、没有变形、没有不一致性。
借助World Labs提供的开源渲染库Spark,爱好者和构建者可以将生成的3D世界导出为高斯分布图,并将其用于后续商业项目,例如构建基于Web的3D体验,在台式机、笔记本电脑、移动设备和VR头显上进行高效渲染。
资讯配图
目前该公司在Marble.worldlabs.ai推出Marble模型的有限访问Beta预览版,用户可以在此页面查看和创建3D世界。
资讯配图
技术层面的大升级
据了解,Marble模型采用了更优的几何结构,通过创建可导航的3D场景解决方案,让用户能像电影制作人一样在连贯一致的3D场景中规划镜头。

对于视觉创作者而言,在连贯一致的3D世界中自由导航与交互是众多工作流程和应用场景的核心。Marble生成的3D世界支持在用户浏览器中免费进行自由视点导航,与深度图或点云提供的有限3D体验不同,该模型生成的世界具有更丰富的几何复杂性,能生成更完整的3D世界,让用户可以窥见输入视角之外的景象。

不过,官方表示,当前的模型只专注于创建3D环境,处理孤立或核心物体例如人物或动物还不支持。

一起来看看部分用户生成的效果:

资讯配图
资讯配图

其次,Marble支持的生成风格更加多样化,既能生成超写实的环境,又能创造风格化的动漫世界,为游戏或创意工作提供更多可能。

生成式AI最令人兴奋的特质之一是在创意过程中能自由迭代视觉效果。Marble模型可将多种不同风格的输入内容转化为3D形式——从扁平色彩卡通到写实细腻的图像,让创作者能通过探索迭代找到最适合项目的虚拟世界。

资讯配图

最后一个技术特征是实现了大规模持久化的3D几何重建,初步展示了用户将生成空间组合成更宏大环境时的可能性——凭借模型实现的风格一致性与几何连贯性,Marble模型现已能流畅导航、浏览此类扩展世界,并为宏大场景构想多种应用方案。

产品发布上线后,有用户问这与Google Genie项目相比如何?李飞飞回复说,Marble生成的世界将永久存在,用户可以随心所欲地在世界中导航,无需支付任何费用。

资讯配图
不断进化的空间智能

有早期用户表示Gen-AI让将创意转化为人们可以分享的体验变得异常简单,以前需要数周时间或收集现有素材才能完成的事情,现在只需使用几个小时就能搞定了。

资讯配图
前谷歌创意技术专家、独立开发者Cristian Peñas表示,Marble是目前使用高斯溅射生成3D世界的最佳工具。
资讯配图
也有用户试用后称赞,使用界面简单,生成质量相当不错且惊艳,细节清晰,没有明显的抖动或变形,光照氛围感也很好。
资讯配图

在当下日新月异的AI市场中,World Labs团队更新产品和模型的速度并不算快,上一次推出首个能够从单张图片生成3D世界的AI系统还是在2024年12月初,去年9月World Labs曾宣布完成一轮2.3亿美元融资,不过具体估值并未公开。

资讯配图

好在,World Labs的Marble模型在技术上仍处于全球第一梯队,特别是在“从单图像生成具有高度一致性的可导航3D场景”这一细分任务上表现突出。

空间智能旨在让机器不仅能“看见”世界,更能深度理解物理世界的结构、规律并进行交互和创造,完整的空间智能需要有机整合三维感知、空间推理以及多模态生成。

李飞飞曾在其个人社交平台上表示,空间智能是AI中难以解决的一个问题,但这项技术可以赋能和实现创造、设计、学习、AR/VR、机器人等领域的无数可能。她认为“空间智能”(Spatial Intelligence)是人工智能(AI)迈向通用人工智能(AGI)的关键与核心,若AI不能理解三维世界,就无法实现真正的AGI。

资讯配图
四面而来的市场压力

World Labs所主攻的空间智能方向目前正成为热门技术赛道,国内外厂商正在纷纷布局,从各个维度展开竞争。

例如谷歌DeepMind近期发布的超真实世界模型Genie 3,是首个允许实时交互的世界模型,在生成内容的连贯性上堪称质的飞跃,同时在通用性、物理规律、视觉记忆方面实现全新水平。


英伟达专门设有空间智能实验室(NVIDIA Spatial Intelligence Lab),该公司打造的Omniverse平台,逐步升级为支持工业协作、元宇宙、人形机器人等场景的空间智能平台,实现跨设备、跨软件的实时协同与物理仿真。


资讯配图

国内厂商如昆仑万维在8月份发布了首个前馈全景3D场景生成模型Matrix-3D,具备场景全局一致、生成场景范围大、生成高度可控等特点,能根据文本和图像输入生成几何结构准确、遮挡关系自然、纹理风格统一的3D场景,还支持自定义范围与无限扩展。


腾讯在9月开源的HunyuanWorld-Voyager,宣称是业界首个支持原生3D重建的超长漫游世界模型,一张图就能生成3D场景和移动视角视频,在李飞飞团队发布的世界模型基准测试WorldScore上综合能力出色。


作为“杭州六小龙之一”的群核科技,在今年的技术开放日上推出了空间语言模型SpatialLM 1.5与空间生成模型SpatialGen,可根据文字描述、参考图像和3D空间布局,生成具有时空一致性的多视角图像,并支持进一步生成3D高斯(3DGS)场景并渲染漫游视频。

随着竞争对手增多,World Labs想要获得商业成功的挑战正在加大。

这不仅取决于能否持续保持原生空间智能技术的领先优势,也在于相比竞争对手能否构建强大的开发者生态和产品集成,使其生成技术能轻松进入主流工具创作流程,并实现可规模化的商业落地模式。

-END-

资讯配图
如果您有什么想说的,欢迎在评论区留言讨论!
投稿或寻求报道,欢迎私信“投稿”,添加编辑微信。
【2025免费新年礼】:了解最新科技趋势分析、行业内部的独家见解、定期的互动讨论和知识分享、与行业专家的直接面对面交流的机会,领取100份AI科技商业研报合集,加群共同探讨与成长——
扫描下方二维码,添加头部科技晶总微信!
资讯配图

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
导航
more
ICCV25满分论文| MTU3D统一空间理解与主动探索的具身导航
传统SLAM的定位导航和具身目标导航有什么区别?
NavA3框架:理解任何指令,导航到任何地方找任何目标(清华大学)
无人机实时导航避坑指南:激光雷达定位与飞控融合的那些关键细节
新车:新款奕派008售价17.36万起;比亚迪新车卖130万;小米SU7上线截图导航功能;小鹏新P7外观细节公布
从边界线到 SLAM,割草机器人导航定位的下一个关键技术是它?
无人机帝国创新史:视觉导航团队的破茧、破界与破维
感知、规划、预测大一统!RoboTron-Nav实现具身导航成功率81%,创历史新高!
哈工深提出UAV-ON:开放世界空中智能体目标导向导航基准测试
具身机器人公司无界智慧招募操作算法、导航算法、运动控制等方向(社招+实习)
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号