世界模型分为哪三大类？

点击蓝字

关注我们

因为公众号平台更改了推送规则。记得点下右下角的大拇指“赞”和红心“推荐”。这样每次新文章推送，就会第一时间出现在订阅号列表里。

因为公众号平台更改了推送规则。记得点右下角的大拇指“赞”和红心“推荐”。这样每次新文章推送，就会第一时间出现在订阅号列表里。

由斯坦福大学计算机科学家李飞飞共同创立的空间智能公司World Labs于2026年6月3日发表了一篇论文，试图为AI领域中最混乱的术语之一带来清晰界定。这篇由李飞飞与World Labs团队撰写的文章指出，“世界模型”这一表述如今涵盖了三种本质完全不同的系统，并阐明了该公司首款产品Marble在其中的位置。

对于使用这些工具的人来说，答案至关重要。无论你是游戏工作室、视觉特效公司、建筑师，还是机器人团队，在选择采用哪种生成式3D系统时，这种分类体系实际上是一份隐含的购买指南：它清晰划分出每类“世界模型”实际能完成哪些任务，以及哪些只是表面看起来能实现的功能。World Labs认为，最复杂且最具价值的类别——物理逼真的模拟器——正是整个行业目前尚未充分开发的部分。

这篇文章发表于World Labs将李的研究信念转化为一家获得大量资金支持的企业的数月之后，该公司曾推出Marble，并完成了一轮10亿美元融资，由设计软件公司Autodesk领投。

三大功能：渲染器生成像素，模拟器生成状态，规划器生成动作

该分类体系源于数十年强化学习教科中经典的智能体循环逻辑：智能体执行一个动作，世界状态随之发生改变，智能体再获取局部观测信息作为反馈。World Labs认为，如今被称为世界模型的系统，实际上只是这一循环中的一小部分。

渲染器输出的是供人眼观察的像素，其评判标准是视觉真实度。本文将视频生成模型和谷歌的交互式Genie 3归入此类，指出它们“没有对三维结构的明确理解”。从上方看，它们拍摄的无人机画面可能看起来完美无瑕，但当你试图在下方城市中驾驶时，画面便会支离破碎。

模拟器输出的是状态：一种在几何和物理上都真实可信的表示，程序（而不仅仅是人类）可以对其进行计算。它的核心要求是结构可靠：几何模型经得起多角度核验，物理运行规律遵循牛顿定律。规划器则输出动作指令，回答智能体下一步该做什么；而新一代的视觉-语言-动作系统和“世界动作模型”正是对规划器的一种尝试。

World Labs将该模拟器称为“关键所在”，这一说法正是本文的核心论点。同样的几何与物理基础知识，可以被投射到渲染器的像素中，也能用于规划器的动作预测——因此，一个精通模拟的模型能够同时胜任这两项任务，而仅能渲染或仅能规划的模型则无法做到。这也正是数据最稀缺的地方：公司表示，具有明确几何结构和物理注释的3D资源，其数量比渲染器训练用的网络视频“少了一个数量级”。

用于视觉的Gaussian Splats，用于物理模拟的Collision Meshes

World Labs之所以能将Marble定位为超越单纯图像生成器的技术工具，关键在于其输出内容。Marble接收多模态输入——如文字、单张图片、多张图片、短视频或粗略的3D布局——并同时以两种不同的方式生成可探索的3D环境。

其最高保真度的视觉输出是3D Gaussian splatting（3DGS），该技术将场景建模为数百万个半透明粒子，每个粒子包含位置、缩放、颜色和不透明度。这与几十年来主导3D图形的多边形网格管线截然不同，后者通过由微小三角形组成的对象进行构建。World Labs 使用开源渲染器Spark在浏览器中渲染这些粒子贴图，Spark基于THREE.js库开发而成。

除了splats外，Marble还输出collider meshes——这是物理引擎可处理的低精度几何结构——以及用于与标准工具兼容的高质量三角形网格。这种双重输出是工程上的决策，据公司表示，“消除了渲染器与模拟器之间的界限”：一个模型既生成场景的外观，也提供程序运行物理计算所需的结构。首发版本还新增了Chisel模式，这是一种实验性功能，允许高级用户用盒子和平面遮挡粗略的3D结构，让Marble来填充样式和细节，从而将世界布局与视觉呈现分离。

数小时即可构建出机器人环境

导出格式是将Marble从创意工具带入机器人领域的关键，并产生实实在在的价值。NVIDIA发布了一套技术流程，该流程可将Marble场景以Gaussian Splats和collider mesh的形式导出，转换后导入NVIDIA Isaac Sim，从而构建出逼真且适合仿真训练的环境。据称，这种方法将原本需要数周完成的设置工作缩短至数小时。

这种速度解决了结构上的瓶颈问题。机器人无法像语言模型那样在互联网规模的数据上进行训练；演示场景和三维环境成本高昂且稀缺。廉价、多样且可实际操作的环境正是机器人学习流程所迫切需要的，而能够大规模生产这类环境的模拟器，对这一流程的价值，远超过仅能生成视频的渲染器。

为何World Labs花费12.3亿美元追逐这一目标

这家提出该主张的公司由李于2024年初与Justin Johnson, Christoph Lassner和Ben Mildenhall共同创立，团队背景深厚，专注于计算机视觉和3D图形技术。该公司于2024年低调推出，获得包括英伟达NVentures、AMD Ventures、Adobe Ventures和Databricks Ventures在内的投资者支持，融资2.3亿美元，估值约为10亿美元。

2026年1月底，彭博社报道称，这家初创公司正商讨筹集高达5亿美元的资金，估值接近50亿美元，但同时警告称相关条款尚未最终确定。数周后，谈判结束：2026年2月18日，World Labs宣布已从AMD、Autodesk、Emerson Collective、Fidelity Management & Research Company、NVIDIA和Sea等公司共获得10亿美元融资。其中，Autodesk以2亿美元的金额领资，创下其有史以来最大的初创企业投资纪录，并担任战略顾问。World Labs未对本次融资估值作出确认。截至目前，总融资额约为12.3亿美元。

智力引擎是李在2025年11月提出的论点：当今的LLM是“在黑暗中写作的词匠”，言辞华丽却缺乏根基，而空间智能则是“超越语言的前沿——一种连接想象力、感知与行动的能力”。

World Labs坦诚自身尚存局限

该文章对目前尚未实现的功能直言不讳。它指出，迄今为止的机器人演示“仅限于高度受限的实验室环境”，而“令人信服的演示视频与能在厨房、仓库或手术室中可靠运行的机器人之间，仍存在巨大差距”。生成式模拟器还带来了自身的一种故障模式：由AI生成的几何结构“可能看起来正确，却包含自相交的元素或尺度错误，导致物理效果毫无意义”。该公司承认，将视觉美感与机器人所需的精确性相结合，“是当今世界模型研究中的关键未解难题”。

World Labs并非唯一一家。NVIDI正围绕Omniverse及其Cosmos世界基础模型运行着一套并行的模拟系统，谷歌DeepMindMind已推出交互式渲染器Genie 3，而众多资金充足的新创企业也正争相攻克规划问题。World Lab将Marble 定位为迈向统一世界模型的“第一章”，该模型能够从单一系统进行渲染、模拟和规划——尽管他们承认，这一目标仍需数年时间才能实现。

原文链接：

https://www.techtimes.com/articles/317927/20260606/feifei-lis-world-labs-splits-world-model-three-types-marble-targets-simulation-linchpin.htm

高端微信群介绍
创业投资群	AI、IOT、芯片创始人、投资人、分析师、券商
闪存群	覆盖5000多位全球华人闪存、存储芯片精英
云计算群	全闪存、软件定义存储SDS、超融合等公有云和私有云讨论
AI芯片群	讨论AI芯片和GPU、FPGA、CPU异构计算
5G群	物联网、5G芯片讨论
第三代半导体群	氮化镓、碳化硅等化合物半导体讨论
存储芯片群	DRAM、NAND、3D XPoint等各类存储介质和主控讨论
汽车电子群	MCU、电源、传感器等汽车电子讨论
光电器件群	光通信、激光器、ToF、AR、VCSEL等光电器件讨论
渠道群	存储和芯片产品报价、行情、渠道、供应链

< 长按识别二维码添加好友 >

加入上述群聊

长按并关注

带你走进万物存储、万物智能、

万物互联信息革命新时代

微信号：SSDFans