
因为公众号平台更改了推送规则。记得点右下角的大拇指“赞”和红心“推荐”。这样每次新文章推送,就会第一时间出现在订阅号列表里。

由斯坦福大学计算机科学家李飞飞共同创立的空间智能公司World Labs于2026年6月3日发表了一篇论文,试图为AI领域中最混乱的术语之一带来清晰界定。这篇由李飞飞与World Labs团队撰写的文章指出,“世界模型”这一表述如今涵盖了三种本质完全不同的系统,并阐明了该公司首款产品Marble在其中的位置。
对于使用这些工具的人来说,答案至关重要。无论你是游戏工作室、视觉特效公司、建筑师,还是机器人团队,在选择采用哪种生成式3D系统时,这种分类体系实际上是一份隐含的购买指南:它清晰划分出每类“世界模型”实际能完成哪些任务,以及哪些只是表面看起来能实现的功能。World Labs认为,最复杂且最具价值的类别——物理逼真的模拟器——正是整个行业目前尚未充分开发的部分。
这篇文章发表于World Labs将李的研究信念转化为一家获得大量资金支持的企业的数月之后,该公司曾推出Marble,并完成了一轮10亿美元融资,由设计软件公司Autodesk领投。
三大功能:渲染器生成像素,模拟器生成状态,规划器生成动作
该分类体系源于数十年强化学习教科中经典的智能体循环逻辑:智能体执行一个动作,世界状态随之发生改变,智能体再获取局部观测信息作为反馈。World Labs认为,如今被称为世界模型的系统,实际上只是这一循环中的一小部分。
渲染器输出的是供人眼观察的像素,其评判标准是视觉真实度。本文将视频生成模型和谷歌的交互式Genie 3归入此类,指出它们“没有对三维结构的明确理解”。从上方看,它们拍摄的无人机画面可能看起来完美无瑕,但当你试图在下方城市中驾驶时,画面便会支离破碎。
模拟器输出的是状态:一种在几何和物理上都真实可信的表示,程序(而不仅仅是人类)可以对其进行计算。它的核心要求是结构可靠:几何模型经得起多角度核验,物理运行规律遵循牛顿定律。规划器则输出动作指令,回答智能体下一步该做什么;而新一代的视觉-语言-动作系统和“世界动作模型”正是对规划器的一种尝试。
World Labs将该模拟器称为“关键所在”,这一说法正是本文的核心论点。同样的几何与物理基础知识,可以被投射到渲染器的像素中,也能用于规划器的动作预测——因此,一个精通模拟的模型能够同时胜任这两项任务,而仅能渲染或仅能规划的模型则无法做到。这也正是数据最稀缺的地方:公司表示,具有明确几何结构和物理注释的3D资源,其数量比渲染器训练用的网络视频“少了一个数量级”。
用于视觉的Gaussian Splats,用于物理模拟的Collision Meshes
World Labs之所以能将Marble定位为超越单纯图像生成器的技术工具,关键在于其输出内容。Marble接收多模态输入——如文字、单张图片、多张图片、短视频或粗略的3D布局——并同时以两种不同的方式生成可探索的3D环境。
其最高保真度的视觉输出是3D Gaussian splatting(3DGS),该技术将场景建模为数百万个半透明粒子,每个粒子包含位置、缩放、颜色和不透明度。这与几十年来主导3D图形的多边形网格管线截然不同,后者通过由微小三角形组成的对象进行构建。World Labs 使用开源渲染器Spark在浏览器中渲染这些粒子贴图,Spark基于THREE.js库开发而成。
除了splats外,Marble还输出collider meshes——这是物理引擎可处理的低精度几何结构——以及用于与标准工具兼容的高质量三角形网格。这种双重输出是工程上的决策,据公司表示,“消除了渲染器与模拟器之间的界限”:一个模型既生成场景的外观,也提供程序运行物理计算所需的结构。首发版本还新增了Chisel模式,这是一种实验性功能,允许高级用户用盒子和平面遮挡粗略的3D结构,让Marble来填充样式和细节,从而将世界布局与视觉呈现分离。
数小时即可构建出机器人环境
导出格式是将Marble从创意工具带入机器人领域的关键,并产生实实在在的价值。NVIDIA发布了一套技术流程,该流程可将Marble场景以Gaussian Splats和collider mesh的形式导出,转换后导入NVIDIA Isaac Sim,从而构建出逼真且适合仿真训练的环境。据称,这种方法将原本需要数周完成的设置工作缩短至数小时。
这种速度解决了结构上的瓶颈问题。机器人无法像语言模型那样在互联网规模的数据上进行训练;演示场景和三维环境成本高昂且稀缺。廉价、多样且可实际操作的环境正是机器人学习流程所迫切需要的,而能够大规模生产这类环境的模拟器,对这一流程的价值,远超过仅能生成视频的渲染器。
为何World Labs花费12.3亿美元追逐这一目标
这家提出该主张的公司由李于2024年初与Justin Johnson, Christoph Lassner和Ben Mildenhall共同创立,团队背景深厚,专注于计算机视觉和3D图形技术。该公司于2024年低调推出,获得包括英伟达NVentures、AMD Ventures、Adobe Ventures和Databricks Ventures在内的投资者支持,融资2.3亿美元,估值约为10亿美元。
2026年1月底,彭博社报道称,这家初创公司正商讨筹集高达5亿美元的资金,估值接近50亿美元,但同时警告称相关条款尚未最终确定。数周后,谈判结束:2026年2月18日,World Labs宣布已从AMD、Autodesk、Emerson Collective、Fidelity Management & Research Company、NVIDIA和Sea等公司共获得10亿美元融资。其中,Autodesk以2亿美元的金额领资,创下其有史以来最大的初创企业投资纪录,并担任战略顾问。World Labs未对本次融资估值作出确认。截至目前,总融资额约为12.3亿美元。
智力引擎是李在2025年11月提出的论点:当今的LLM是“在黑暗中写作的词匠”,言辞华丽却缺乏根基,而空间智能则是“超越语言的前沿——一种连接想象力、感知与行动的能力”。
World Labs坦诚自身尚存局限
该文章对目前尚未实现的功能直言不讳。它指出,迄今为止的机器人演示“仅限于高度受限的实验室环境”,而“令人信服的演示视频与能在厨房、仓库或手术室中可靠运行的机器人之间,仍存在巨大差距”。生成式模拟器还带来了自身的一种故障模式:由AI生成的几何结构“可能看起来正确,却包含自相交的元素或尺度错误,导致物理效果毫无意义”。该公司承认,将视觉美感与机器人所需的精确性相结合,“是当今世界模型研究中的关键未解难题”。
World Labs并非唯一一家。NVIDI正围绕Omniverse及其Cosmos世界基础模型运行着一套并行的模拟系统,谷歌DeepMindMind已推出交互式渲染器Genie 3,而众多资金充足的新创企业也正争相攻克规划问题。World Lab将Marble 定位为迈向统一世界模型的“第一章”,该模型能够从单一系统进行渲染、模拟和规划——尽管他们承认,这一目标仍需数年时间才能实现。
原文链接:
高端微信群介绍 | |
创业投资群 | AI、IOT、芯片创始人、投资人、分析师、券商 |
闪存群 | 覆盖5000多位全球华人闪存、存储芯片精英 |
云计算群 | 全闪存、软件定义存储SDS、超融合等公有云和私有云讨论 |
AI芯片群 | 讨论AI芯片和GPU、FPGA、CPU异构计算 |
5G群 | 物联网、5G芯片讨论 |
第三代半导体群 | 氮化镓、碳化硅等化合物半导体讨论 |
存储芯片群 | DRAM、NAND、3D XPoint等各类存储介质和主控讨论 |
汽车电子群 | MCU、电源、传感器等汽车电子讨论 |
光电器件群 | 光通信、激光器、ToF、AR、VCSEL等光电器件讨论 |
渠道群 | 存储和芯片产品报价、行情、渠道、供应链 |

< 长按识别二维码添加好友 >
加入上述群聊

带你走进万物存储、万物智能、
万物互联信息革命新时代
