世界模型分为哪三大类?

SSDFans 2026-06-24 07:54
世界模型分为哪三大类?图1


点击蓝字
关注我们



因为公众号平台更改了推送规则。记得点下右下角的大拇指“赞”红心“推荐”。这样每次新文章推送,就会第一时间出现在订阅号列表里。

因为公众号平台更改了推送规则。记得点右下角的大拇指“赞”红心“推荐”。这样每次新文章推送,就会第一时间出现在订阅号列表里。


世界模型分为哪三大类?图2

由斯坦福大学计算机科学家李飞飞共同创立的空间智能公司World Labs202663日发表了一篇论文,试图为AI领域中最混乱的术语之一带来清晰界定。这篇由李飞飞与World Labs团队撰写的文章指出,“世界模型”这一表述如今涵盖了三种本质完全不同的系统,并阐明了该公司首款产品Marble在其中的位置。

对于使用这些工具的人来说,答案至关重要。无论你是游戏工作室、视觉特效公司、建筑师,还是机器人团队,在选择采用哪种生成式3D系统时,这种分类体系实际上是一份隐含的购买指南:它清晰划分出每类“世界模型”实际能完成哪些任务,以及哪些只是表面看起来能实现的功能。World Labs认为,最复杂且最具价值的类别——物理逼真的模拟器——正是整个行业目前尚未充分开发的部分。

这篇文章发表于World Labs将李的研究信念转化为一家获得大量资金支持的企业的数月之后,该公司曾推出Marble,并完成了一轮10亿美元融资,由设计软件公司Autodesk领投。

三大功能:渲染器生成像素,模拟器生成状态,规划器生成动作

该分类体系源于数十年强化学习教科中经典的智能体循环逻辑:智能体执行一个动作,世界状态随之发生改变,智能体再获取局部观测信息作为反馈。World Labs认为,如今被称为世界模型的系统,实际上只是这一循环中的一小部分。

渲染器输出的是供人眼观察的像素,其评判标准是视觉真实度。本文将视频生成模型和谷歌的交互式Genie 3归入此类,指出它们“没有对三维结构的明确理解”。从上方看,它们拍摄的无人机画面可能看起来完美无瑕,但当你试图在下方城市中驾驶时,画面便会支离破碎。

模拟器输出的是状态:一种在几何和物理上都真实可信的表示,程序(而不仅仅是人类)可以对其进行计算。它的核心要求是结构可靠:几何模型经得起多角度核验,物理运行规律遵循牛顿定律。规划器则输出动作指令,回答智能体下一步该做什么;而新一代的视觉-语言-动作系统和“世界动作模型”正是对规划器的一种尝试。

World Labs将该模拟器称为“关键所在”,这一说法正是本文的核心论点。同样的几何与物理基础知识,可以被投射到渲染器的像素中,也能用于规划器的动作预测——因此,一个精通模拟的模型能够同时胜任这两项任务,而仅能渲染或仅能规划的模型则无法做到。这也正是数据最稀缺的地方:公司表示,具有明确几何结构和物理注释的3D资源,其数量比渲染器训练用的网络视频“少了一个数量级”。

用于视觉的Gaussian Splats,用于物理模拟的Collision Meshes

World Labs之所以能将Marble定位为超越单纯图像生成器的技术工具,关键在于其输出内容。Marble接收多模态输入——如文字、单张图片、多张图片、短视频或粗略的3D布局——并同时以两种不同的方式生成可探索的3D环境。

其最高保真度的视觉输出是3D Gaussian splatting3DGS),该技术将场景建模为数百万个半透明粒子,每个粒子包含位置、缩放、颜色和不透明度。这与几十年来主导3D图形的多边形网格管线截然不同,后者通过由微小三角形组成的对象进行构建。World Labs 使用开源渲染器Spark在浏览器中渲染这些粒子贴图,Spark基于THREE.js库开发而成。

除了splats外,Marble还输出collider meshes——这是物理引擎可处理的低精度几何结构——以及用于与标准工具兼容的高质量三角形网格。这种双重输出是工程上的决策,据公司表示,“消除了渲染器与模拟器之间的界限”:一个模型既生成场景的外观,也提供程序运行物理计算所需的结构。首发版本还新增了Chisel模式,这是一种实验性功能,允许高级用户用盒子和平面遮挡粗略的3D结构,让Marble来填充样式和细节,从而将世界布局与视觉呈现分离。

数小时即可构建出机器人环境

导出格式是将Marble从创意工具带入机器人领域的关键,并产生实实在在的价值。NVIDIA发布了一套技术流程,该流程可将Marble场景以Gaussian Splatscollider mesh的形式导出,转换后导入NVIDIA Isaac Sim,从而构建出逼真且适合仿真训练的环境。据称,这种方法将原本需要数周完成的设置工作缩短至数小时。

这种速度解决了结构上的瓶颈问题。机器人无法像语言模型那样在互联网规模的数据上进行训练;演示场景和三维环境成本高昂且稀缺。廉价、多样且可实际操作的环境正是机器人学习流程所迫切需要的,而能够大规模生产这类环境的模拟器,对这一流程的价值,远超过仅能生成视频的渲染器。

为何World Labs花费12.3亿美元追逐这一目标

这家提出该主张的公司由李于2024年初与Justin Johnson, Christoph LassnerBen Mildenhall共同创立,团队背景深厚,专注于计算机视觉和3D图形技术。该公司于2024年低调推出,获得包括英伟达NVenturesAMD VenturesAdobe VenturesDatabricks Ventures在内的投资者支持,融资2.3亿美元,估值约为10亿美元。

20261月底,彭博社报道称,这家初创公司正商讨筹集高达5亿美元的资金,估值接近50亿美元,但同时警告称相关条款尚未最终确定。数周后,谈判结束:2026218日,World Labs宣布已从AMDAutodeskEmerson CollectiveFidelity Management & Research CompanyNVIDIASea等公司共获得10亿美元融资。其中,Autodesk2亿美元的金额领资,创下其有史以来最大的初创企业投资纪录,并担任战略顾问。World Labs未对本次融资估值作出确认。截至目前,总融资额约为12.3亿美元。

智力引擎是李在202511月提出的论点:当今的LLM是“在黑暗中写作的词匠”,言辞华丽却缺乏根基,而空间智能则是“超越语言的前沿——一种连接想象力、感知与行动的能力”。

World Labs坦诚自身尚存局限

该文章对目前尚未实现的功能直言不讳。它指出,迄今为止的机器人演示“仅限于高度受限的实验室环境”,而“令人信服的演示视频与能在厨房、仓库或手术室中可靠运行的机器人之间,仍存在巨大差距”。生成式模拟器还带来了自身的一种故障模式:由AI生成的几何结构“可能看起来正确,却包含自相交的元素或尺度错误,导致物理效果毫无意义”。该公司承认,将视觉美感与机器人所需的精确性相结合,“是当今世界模型研究中的关键未解难题”。

World Labs并非唯一一家。NVIDI正围绕Omniverse及其Cosmos世界基础模型运行着一套并行的模拟系统,谷歌DeepMindMind已推出交互式渲染器Genie 3,而众多资金充足的新创企业也正争相攻克规划问题。World LabMarble 定位为迈向统一世界模型的“第一章”,该模型能够从单一系统进行渲染、模拟和规划——尽管他们承认,这一目标仍需数年时间才能实现。



原文链接:

https://www.techtimes.com/articles/317927/20260606/feifei-lis-world-labs-splits-world-model-three-types-marble-targets-simulation-linchpin.htm






高端微信群介绍

创业投资群


AI、IOT、芯片创始人、投资人、分析师、券商

闪存群


覆盖5000多位全球华人闪存、存储芯片精英

云计算群


全闪存、软件定义存储SDS、超融合等公有云和私有云讨论

AI芯片群


讨论AI芯片和GPU、FPGA、CPU异构计算

5G群


物联网、5G芯片讨论

第三代半导体群

氮化镓、碳化硅等化合物半导体讨论

储芯片群

DRAM、NAND、3D XPoint等各类存储介质和主控讨论

汽车电子群

MCU、电源、传感器等汽车电子讨论

光电器件群

光通信、激光器、ToF、AR、VCSEL等光电器件讨论

渠道群

存储和芯片产品报价、行情、渠道、供应链



世界模型分为哪三大类?图3


< 长按识别二维码添加好友 >

加入上述群聊


世界模型分为哪三大类?图4


长按并关注

带你走进万物存储、万物智能、

万物互联信息革命新时代

世界模型分为哪三大类?图5
微信号:SSDFans



声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
more
AI短剧都用同一张脸,看得人生理性厌恶
智谱唐杰:成功企业靠管理那是曾经,AI时代不行了
海光芯正成功登陆港交所,成为港股市场首批AI硅光互连企业
腾讯研究院AI速递 20260630
OpenAI推迟上市,那“Kimi们”呢?
引领万物智联!中国移动物联网AIoT平台率先荣获信通院“智能物联网5.0”卓越级评估
从AI4S到AI4E:国产首个千卡工科智算集群落地同济
买外版iPhone用苹果AI?别急着掏钱,谨防这几个超级大坑
Claude「断电」背后:中国基准首次捅开了AI万亿市场「死穴」
FPGA 不只做 AI 和高速接口,这次它变成了一台显示器
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号