文丨谭梓馨

今天，“AI教母”、斯坦福大学教授李飞飞创办的AI公司空间智能（World Labs）发布了一项重磅新成果：Marble模型，可从单个图像生成持久的3D世界，比以往更大更好。

李飞飞表示：“这是3D世界生成领域取得的巨大进步，它让我惊叹不已！”

空间智能团队在介绍博客中提到，这次提高了模型生成清晰、连贯的几何图形来代表完整的3D环境的能力，并以多种多样的风格想象世界。

用户只需要给定一个图像或文本提示，Marble模型就能生成一个3D世界，还可以让你随心所欲地探索——没有时间限制、没有变形、没有不一致性。

借助World Labs提供的开源渲染库Spark，爱好者和构建者可以将生成的3D世界导出为高斯分布图，并将其用于后续商业项目，例如构建基于Web的3D体验，在台式机、笔记本电脑、移动设备和VR头显上进行高效渲染。

目前该公司在Marble.worldlabs.ai推出Marble模型的有限访问Beta预览版，用户可以在此页面查看和创建3D世界。

技术层面的大升级

据了解，Marble模型采用了更优的几何结构，通过创建可导航的3D场景解决方案，让用户能像电影制作人一样在连贯一致的3D场景中规划镜头。

对于视觉创作者而言，在连贯一致的3D世界中自由导航与交互是众多工作流程和应用场景的核心。Marble生成的3D世界支持在用户浏览器中免费进行自由视点导航，与深度图或点云提供的有限3D体验不同，该模型生成的世界具有更丰富的几何复杂性，能生成更完整的3D世界，让用户可以窥见输入视角之外的景象。

不过，官方表示，当前的模型只专注于创建3D环境，处理孤立或核心物体例如人物或动物还不支持。

一起来看看部分用户生成的效果：

其次，Marble支持的生成风格更加多样化，既能生成超写实的环境，又能创造风格化的动漫世界，为游戏或创意工作提供更多可能。

生成式AI最令人兴奋的特质之一是在创意过程中能自由迭代视觉效果。Marble模型可将多种不同风格的输入内容转化为3D形式——从扁平色彩卡通到写实细腻的图像，让创作者能通过探索迭代找到最适合项目的虚拟世界。

最后一个技术特征是实现了大规模持久化的3D几何重建，初步展示了用户将生成空间组合成更宏大环境时的可能性——凭借模型实现的风格一致性与几何连贯性，Marble模型现已能流畅导航、浏览此类扩展世界，并为宏大场景构想多种应用方案。

产品发布上线后，有用户问这与Google Genie项目相比如何？李飞飞回复说，Marble生成的世界将永久存在，用户可以随心所欲地在世界中导航，无需支付任何费用。

不断进化的空间智能

有早期用户表示Gen-AI让将创意转化为人们可以分享的体验变得异常简单，以前需要数周时间或收集现有素材才能完成的事情，现在只需使用几个小时就能搞定了。

前谷歌创意技术专家、独立开发者Cristian Peñas表示，Marble是目前使用高斯溅射生成3D世界的最佳工具。

也有用户试用后称赞，使用界面简单，生成质量相当不错且惊艳，细节清晰，没有明显的抖动或变形，光照氛围感也很好。

在当下日新月异的AI市场中，World Labs团队更新产品和模型的速度并不算快，上一次推出首个能够从单张图片生成3D世界的AI系统还是在2024年12月初，去年9月World Labs曾宣布完成一轮2.3亿美元融资，不过具体估值并未公开。

好在，World Labs的Marble模型在技术上仍处于全球第一梯队，特别是在“从单图像生成具有高度一致性的可导航3D场景”这一细分任务上表现突出。

空间智能旨在让机器不仅能“看见”世界，更能深度理解物理世界的结构、规律并进行交互和创造，完整的空间智能需要有机整合三维感知、空间推理以及多模态生成。

李飞飞曾在其个人社交平台上表示，空间智能是AI中难以解决的一个问题，但这项技术可以赋能和实现创造、设计、学习、AR/VR、机器人等领域的无数可能。她认为“空间智能”（Spatial Intelligence）是人工智能（AI）迈向通用人工智能（AGI）的关键与核心，若AI不能理解三维世界，就无法实现真正的AGI。

四面而来的市场压力

World Labs所主攻的空间智能方向目前正成为热门技术赛道，国内外厂商正在纷纷布局，从各个维度展开竞争。

例如谷歌DeepMind近期发布的超真实世界模型Genie 3，是首个允许实时交互的世界模型，在生成内容的连贯性上堪称质的飞跃，同时在通用性、物理规律、视觉记忆方面实现全新水平。

英伟达专门设有空间智能实验室（NVIDIA Spatial Intelligence Lab），该公司打造的Omniverse平台，逐步升级为支持工业协作、元宇宙、人形机器人等场景的空间智能平台，实现跨设备、跨软件的实时协同与物理仿真。

国内厂商如昆仑万维在8月份发布了首个前馈全景3D场景生成模型Matrix-3D，具备场景全局一致、生成场景范围大、生成高度可控等特点，能根据文本和图像输入生成几何结构准确、遮挡关系自然、纹理风格统一的3D场景，还支持自定义范围与无限扩展。

腾讯在9月开源的HunyuanWorld-Voyager，宣称是业界首个支持原生3D重建的超长漫游世界模型，一张图就能生成3D场景和移动视角视频，在李飞飞团队发布的世界模型基准测试WorldScore上综合能力出色。

作为“杭州六小龙之一”的群核科技，在今年的技术开放日上推出了空间语言模型SpatialLM 1.5与空间生成模型SpatialGen，可根据文字描述、参考图像和3D空间布局，生成具有时空一致性的多视角图像，并支持进一步生成3D高斯（3DGS）场景并渲染漫游视频。

随着竞争对手增多，World Labs想要获得商业成功的挑战正在加大。

这不仅取决于能否持续保持原生空间智能技术的领先优势，也在于相比竞争对手能否构建强大的开发者生态和产品集成，使其生成技术能轻松进入主流工具创作流程，并实现可规模化的商业落地模式。

-END-

如果您有什么想说的，欢迎在评论区留言讨论！

投稿或寻求报道，欢迎私信“投稿”，添加编辑微信。

【2025免费新年礼】：了解最新科技趋势分析、行业内部的独家见解、定期的互动讨论和知识分享、与行业专家的直接面对面交流的机会，领取100份AI科技商业研报合集，加群共同探讨与成长——

扫描下方二维码，添加头部科技晶总微信！