李飞飞最新长文刷屏，AI 下一个十年最需要的不是大模型

当 ChatGPT 震惊世界时，我们以为 AI 已经足够聪明。但它依然做不到一件事：准确判断你伸手去够桌边咖啡杯时，手指距离杯沿还有多少厘米。

今天，知名 AI 学者李飞飞用一篇博客回答了这个问题：真正的智能不只是文字游戏，而是藏在一个我们每天都在使用却从未意识到的能力里：

空间智能。

这是一种比语言更古老的智能，改变人类文明的时刻，从来依靠的都不是语言，而是对空间的感知、想象与推理。

比如古希腊学者通过观察影子计算出地球周长，科学家摆弄金属丝拼出DNA的双螺旋结构，消防员在烟雾中凭直觉判断建筑是否会坍塌。

而现在，AI 即将获得它一直缺失的这种能力。

省流版如下：

1. 当前 AI（特别是大型语言模型 LLM）虽然那改变了我们运用抽象知识的方式，语言能力很强，却缺乏对物理世界的真实经验和理解。它们在机器人、科学发现、沉浸式创造力等领域仍有根本局限。

空间智能是人类智能的基石，甚至先于语言存在。它不仅支撑着我们与物理世界的日常互动（如驾驶、接住钥匙），也是人类想象力、创造力和科学发现（如古希腊测量地球周长、DNA 双螺旋结构的发现）的核心。

它是人类认知赖以构建的「脚手架」。

2. 尽管多模态模型（MLLM）有所进步，但 AI 在空间能力上与人类相差甚远。它们无法准确估计距离、方向，无法在脑中「旋转」物体，也无法预测基本的物理规律。AI 缺乏这种能力，就无法真正与物理现实建立联系。

要实现空间智能，我们需要超越 LLM，构建更具雄心的「世界模型」。这是一种全新的生成式模型，其能力远远超越当今的 LLM。李飞飞与 World Labs 正致力于此。

3. 李飞飞定义了世界模型必须具备的三种能力：

生成性 (Generative)：能够生成在感知、几何和物理规律上保持一致性的世界。

多模态性 (Multimodal)：天生设计为多模态，能处理和输出多种形式的信息（如图像、视频、深度图、文字、动作）。

交互性 (Interactive)：能够根据输入的「动作」，预测或输出世界的「下一个状态」，并最终可能预测「下一步应采取的行动」。

4. 李飞飞认为，构建世界模型远比构建语言模型困难，因为世界的维度远超语言。这需要克服三大挑战：

新的训练任务：需要找到类似 LLM 中「下一个词预测」那样优雅的通用任务函数，但难度更高。

大规模数据：需要能从海量的互联网图像和视频中提取深层空间信息，并辅以合成数据和多模态数据。

新的模型架构：需要超越当前 1D/2D 序列范式，发展出具备 3D 或 4D 感知能力的新架构（比如 World Labs 的 RTFM 模型）。

5. AI 应当增强人类的能力，而非取而代之。AI 应始终尊重人的自主性与尊严。空间智能正是这一愿景的体现，它旨在赋能人类的创造力、关怀能力和科学发现。

6. 空间智能的应用将分阶段展开：

近期（创造力）：赋能故事讲述、电影、游戏和建筑设计。World Labs 已推出 Marble 平台，帮助创作者构建 3D 世界。

中期（机器人学）：实现「行动中的具身智能」。世界模型将通过模拟训练，使机器人成为人类的协作助手。

长期（科学、医疗与教育）：在药物研发、材料科学、辅助诊断、环境感知监护以及沉浸式教育等领域产生变革性影响。

7. 探索空间智能是李飞飞科研生涯的「北极星」。没有空间智能，「真正智能机器」的梦想就无法实现。她呼吁整个 AI 生态系统共同努力，将这项技术用来造福全世界。

附上相关阅读🔗：

从语言到世界：空间智能是人工智能的下一个前沿

1950 年，当计算机还只是自动化运算和简单逻辑的工具时，Alan Turing 提出了一个至今仍回荡的问题：机器能思考吗？他以非凡的想象力看到了一个大胆的可能——智能也许有一天不是天生的，而是被「创造」出来的。这个洞见后来开启了一场被称为「人工智能（AI）」的不懈科学探索。

在我从事人工智能研究的二十五年里，Turing 的远见依然激励着我。但我们离那个目标还有多远？这个问题并不容易回答。

如今，领先的人工智能技术——例如大型语言模型（LLM）——已经开始改变我们获取和运用抽象知识的方式。

然而，它们依然像在黑暗中打磨文字的匠人：语言优美，却缺乏经验；知识丰富，却未真正立足于现实。空间智能（Spatial Intelligence）将重新定义我们创造和体验现实与虚拟世界的方式——它将彻底变革故事讲述、创造力、机器人学、科学发现等多个领域。这正是人工智能的下一个前沿。

自我进入这一领域以来，对视觉与空间智能的追求一直是我的北极星。

这也是我花费多年时间创建 ImageNet 的原因——这是第一个大规模视觉学习与评测数据集，与神经网络算法以及现代计算（如 GPU 图形处理单元）一起，成为现代人工智能诞生的三大关键支柱之一。过去十年里，我在斯坦福大学的实验室致力于将计算机视觉与机器人学习相结合。

而正因为这一信念，我与联合创始人 Justin Johnson、Christoph Lassner、Ben Mildenhall 于一年多前共同创立了 World Labs——希望第一次真正实现这一愿景。

在这篇文章中，我将解释什么是空间智能、它为何重要，以及我们如何构建能够解锁这种智能的「世界模型」——这种能力将重新塑造创造力、具身智能，以及人类的进步。

空间智能：人类认知的支架

人工智能正处在前所未有的激动人心的时刻。生成式 AI 模型（如大型语言模型，LLM）已经从研究实验室走进日常生活，成为数十亿人用于创造、工作和交流的工具。它们展现出了曾被认为不可能的能力——能够轻松生成连贯的文本、大量的代码、逼真的图像，甚至短视频片段。

如今，我们已无需再问「AI 是否会改变世界」，因为无论从哪个角度来看，它已经在改变世界。

然而，仍有许多目标尚未实现。自主机器人的愿景依旧令人着迷，但仍停留在猜想阶段，距离未来学家所描绘的日常生活场景还有很远。

AI 在疾病治愈、新材料发现、粒子物理等领域中实现研究飞速推进的梦想，也仍然大体未能实现。而能真正理解并赋能人类创造者的 AI——无论是学习分子化学复杂概念的学生、构思空间的建筑师、构建世界的电影制作人，还是追求沉浸式虚拟体验的任何人——仍未到来。

要理解这些能力为何仍难以实现，我们需要回溯空间智能的演化历程，并探究它如何塑造了我们对世界的理解。

视觉长期以来一直是人类智能的基石，但它的力量源于更为根本的机制。在动物能够筑巢、养育后代、使用语言交流或建立文明之前，最初那种感知的能力——哪怕只是捕捉到一束光、一种触感——就悄然点燃了通往智能的进化之路。

这种看似孤立的、从外部世界提取信息的能力，在感知与生存之间搭起了一座桥梁，而这座桥梁随着世代更迭不断加固、扩展。层层叠叠的神经元在这座桥上生长，形成了解读世界、协调有机体与环境互动的神经系统。

因此，许多科学家推测：「感知—行动」这一循环正是智能进化的核心驱动力，也是自然界创造出我们——这种能感知、学习、思考并行动的物种——的根本基础。

空间智能在我们与物理世界的互动中起着至关重要的作用。

每天，我们都在依赖它完成各种看似平凡的动作：停车时通过想象车头与路沿间逐渐缩小的距离来判断位置；接住从房间另一头扔来的钥匙；在人群密集的人行道上穿行而不相撞；或是半睡半醒时不用看就能把咖啡倒进杯子里。

在更极端的情境下，消防员在坍塌的建筑物中穿行，在烟雾弥漫的环境中凭直觉判断结构是否稳定、如何生存，并通过手势、身体语言以及一种难以言传的职业本能进行交流。而孩子们则在学会说话之前的几个月甚至几年里，通过与环境的游戏式互动来认识世界。

所有这一切都发生得自然而然、毫不费力——这正是一种机器尚未掌握的「本能流畅」。

空间智能同样是我们想象力与创造力的基础。讲故事的人在脑海中构建出丰富的世界，并借助各种视觉媒介将其传达给他人——从远古的洞穴壁画，到现代电影，再到沉浸式电子游戏。

无论是孩子们在沙滩上堆砌城堡，还是在电脑上玩《我的世界》（Minecraft），以空间为基础的想象力都是他们在现实或虚拟世界中进行互动体验的核心。

在众多行业中，对物体、场景以及动态交互环境的模拟也成为关键支撑——从工业设计到数字孪生，从机器人训练到各种业务应用，空间智能驱动着无数重要的实践场景。

纵观历史，空间智能在许多奠定文明走向的关键时刻都发挥了核心作用。

在古希腊，Eratosthenes 通过观察「影子」悟出了几何原理——他在亚历山大测量到阳光与地面形成的 7 度角，并在同一时间注意到赛恩城没有影子，由此计算出了地球的周长。

Hargreave 发明的「珍妮纺纱机」（Spinning Jenny）则通过一个空间布局的巧思彻底革新了纺织业：他将多个纺锤并排安装在同一架子上，让一个工人能够同时纺出多股纱线，从而将生产效率提高了八倍。

Watson 和 Crick 则通过亲手搭建三维分子模型，摆弄金属板与金属丝，最终拼出了 DNA 的空间结构，让碱基对的排列方式恰如其分地契合在一起。

在这些案例中，空间智能都是推动人类文明前进的关键力量——科学家和发明家必须操控物体、想象结构，并在物理空间中进行推理，而这些过程是文字所无法完全表达的。

空间智能，是人类认知赖以构建的「脚手架」。无论是被动观察还是主动创造，它都在发挥作用。

它驱动着我们的推理与规划，即便面对最抽象的问题也是如此。它同样决定了我们与世界互动的方式——无论是语言交流还是身体行动，无论是与他人还是与环境本身的互动。

虽然我们大多数人并不会每天都像 Eratosthenes 那样揭示自然的奥秘，但我们依然以相同的方式思考——通过感官理解复杂的世界，并凭直觉掌握其中的物理与空间规律。

遗憾的是，如今的人工智能还无法像这样思考。

过去几年中，人工智能确实取得了巨大进步。多模态大型语言模型（Multimodal LLMs，简称 MLLM）在海量多媒体数据（除了文本外还包括图像、音频、视频等）的训练下，初步具备了某种「空间感知」能力。

如今的 AI 已能分析图片、回答与图片相关的问题，并生成极其逼真的图像与短视频。同时，得益于传感器与触觉技术的突破，最先进的机器人也开始能够在高度受限的环境中操控物体和工具。

但坦率地说，AI 的空间能力仍远未达到人类水平，这种差距一眼便能看出。

当前最先进的 MLLM 模型在估计距离、方向、大小等方面的表现往往不比随机猜测好多少——它们也无法像人类那样在脑海中「旋转」物体，从不同角度重新想象其形状。它们不能穿越迷宫、识别捷径，也无法预测最基本的物理规律。AI 生成的视频虽然令人惊叹，但往往在几秒后就失去连贯性。

目前的尖端 AI 虽然在阅读、写作、研究和数据模式识别等任务中表现出色，但在理解或与物理世界交互时，却存在根本性的局限。

我们对世界的感知是整体性的——不仅看到「事物本身」，还理解它们在空间上的关系、意义以及重要性。而通过想象、推理、创造和互动来理解世界——而不仅仅是用语言去描述——这正是空间智能的力量所在。

缺乏这种能力，AI 就无法真正与它想要理解的物理现实建立联系。它无法安全高效地驾驶汽车，无法在家庭或医院中灵活地引导机器人，也难以为学习与娱乐提供全新的沉浸式互动体验，更无法大幅加速材料科学或医学领域的发现。

哲学家维特根斯坦（Wittgenstein）曾写道：「我的语言的界限意味着我的世界的界限。」

我并非哲学家，但至少我知道——对于人工智能而言，世界不止于「语言」。空间智能代表着超越语言的前沿——它是一种将想象、感知与行动连接起来的能力，使机器真正能够拓展人类的生活潜能，从医疗到创造力，从科学发现到日常助理，都因此焕发新可能。

人工智能的下一个十年：构建真正具备空间智能的机器

那么，我们该如何构建具有空间智能的 AI？怎样才能让模型既能像 Eratosthenes 那样进行空间推理，又能像工业设计师那样精确创造，像讲故事的人那样富有想象力，并像救援人员那样在复杂环境中灵活行动？

要实现这一点，我们需要的不只是大型语言模型（LLM），而是一种更具雄心的体系——世界模型（World Models）。

这是一类全新的生成式模型，能够在语义、物理、几何与动态复杂的世界中——无论虚拟还是现实——进行理解、推理、生成与交互，其能力远远超越当今的 LLM。

这一研究领域尚处于萌芽阶段，目前的探索方法从抽象推理模型到视频生成系统皆有涉猎。World Labs 正是在这种信念下于 2024 年初创立的：我们认为，基础方法尚未确立，而这正是未来十年人工智能发展的决定性挑战。

在这个新兴领域中，最重要的是建立一套指导发展的核心原则。对于空间智能而言，我将「世界模型」定义为具备以下三种关键能力的系统：

1. 生成性（Generative）：世界模型能够生成具备感知、几何与物理一致性的世界

要实现空间理解与推理，世界模型必须具备生成自身「模拟世界」的能力。它们应能根据语义或感知层面的指令，生成无穷多样的虚拟世界——这些世界无论在几何结构、物理规律还是动态变化上，都必须保持一致性，无论它们代表的是现实空间还是虚拟空间。

研究界正在积极探索这些世界应当以内在几何结构的隐式还是显式形式来表示。此外，除了具备强大的潜在表示能力，我认为一个通用的世界模型还必须能够输出清晰可观测的世界状态，以适应多种应用场景。尤其重要的是，模型对「当下世界」的理解必须与「过去世界」的状态相连贯——它要能理解世界从过去如何演变到现在。

2. 多模态性（Multimodal）：世界模型从设计上就是多模态的

就像人类与动物一样，世界模型也应能处理多种形式的输入——在生成式 AI 领域，这些输入被称为「提示（prompt）」。面对不完整的信息（如图像、视频、深度图、文字指令、手势或动作），世界模型应能预测或生成尽可能完整的世界状态。

这要求它在处理视觉输入时具备接近真实视觉的精度，同时在理解语义指令时同样灵活。这样，智能体（agent）与人类都能通过多样化的输入与模型进行交流，并获得同样多样化的输出反馈。

3. 交互性（Interactive）：世界模型能够根据输入的动作输出下一步的世界状态

最后，当「动作」或「目标」被作为输入提示的一部分时，世界模型的输出必须包含世界的下一状态，这种状态可以是隐式的，也可以是显式的。

当模型接收到一个动作（无论是否包含目标状态）作为输入时，它应能输出与世界先前状态、目标状态（若有）、语义含义、物理规律及动态行为一致的结果。

随着具备空间智能的世界模型在推理与生成能力上不断增强，可以想象——未来面对某个给定目标时，世界模型不仅能够预测世界的下一状态，还能基于这一新状态预测「下一步应采取的行动」。

这一挑战的规模，远超人工智能以往所面对的一切。

语言，是人类认知中一种纯粹的生成现象；而「世界」，却遵循着复杂得多的规律。以地球为例，引力决定了运动规律，原子结构影响了光线的色彩与亮度，无数的物理定律限制着每一次交互。

即便是最天马行空的虚构世界，也依然由服从这些物理法则与动态行为的空间物体和智能体所构成。要让语义、几何、动态与物理这几种层面在同一模型中保持一致，需要全新的方法与思路。

世界的表示维度远比语言这种「一维、序列信号」复杂得多。要让世界模型具备人类所拥有的那种通用能力，我们必须跨越多个艰巨的技术障碍。而在 World Labs，我们的研究团队正致力于为实现这一目标奠定基础性突破。

以下是我们当前正在研究的一些课题示例：

· 一种新的通用训练任务函数
为世界模型定义一个像大型语言模型（LLM）中「下一个词预测」那样简单又优雅的通用任务函数，一直是该领域的核心目标。然而，由于世界模型的输入与输出空间更加复杂，这一函数的设计难度要高得多。

尽管仍有许多未知需要探索，但这种目标函数及其对应的表示方式，必须能够体现几何与物理规律，忠实地反映世界模型作为「连接想象与现实的有根表示」的本质。

· 大规模训练数据
训练世界模型所需的数据复杂程度远超文本数据。好消息是——庞大的数据源已经存在。互联网级的图像与视频资源，为训练提供了丰富、可获取的素材。真正的挑战在于：如何开发算法，从这些基于二维图像或视频帧（即 RGB 信号）的数据中提取更深层次的空间信息。

过去十年的研究表明，语言模型的性能提升遵循「数据量与模型规模的扩展规律」；而对于世界模型来说，关键突破在于构建能够在相似规模下充分利用视觉数据的模型架构。

此外，我们也不应低估高质量合成数据以及深度图、触觉等额外模态的价值。它们在训练过程的关键阶段能对互联网级数据起到补充作用。要让这一过程更高效，还依赖于更先进的传感系统、更稳健的信号提取算法，以及更强大的神经仿真技术。

· 新的模型架构与表征学习
世界模型的研究必然会推动模型架构与学习算法的革新，特别是超越当前多模态语言模型（MLLM）和视频扩散模型的范式。现有方法通常将数据「分词化」为一维或二维序列，这让一些简单的空间任务变得异常困难——例如在短视频中数清不同的椅子，或回忆一小时前房间的布局。

新的架构可能带来改进，比如在分词、上下文与记忆机制中引入三维或四维感知能力。举例来说，World Labs 最近开发的实时生成帧模型（RTFM）就是这种转变的体现。该模型利用「以空间为基础的帧」作为空间记忆单元，实现了高效的实时生成，同时在生成的世界中保持连续性与稳定性。

显然，我们距离通过「世界建模」彻底释放空间智能的潜能，还有许多艰巨的挑战要克服。

这项研究不仅仅是理论探索——它是推动新一代创造性与生产力工具的核心引擎。而在 World Labs，我们已经取得了一些令人振奋的进展。

最近，我们向少量用户展示了 Marble ——首个能够通过多模态输入进行提示（prompt），并生成、维持一致性三维环境的世界模型。它让用户与创作者能够在这些虚拟空间中探索、互动，并将其纳入创作流程中继续扩展。我们正在努力，让 Marble 尽快向公众开放。

Marble 只是我们迈向真正具备空间智能的世界模型的第一步。

随着研究的加速推进，科研人员、工程师、用户和商业领袖都开始认识到这项技术的非凡潜力。下一代世界模型将让机器实现一个全新的空间智能层次——这将解锁当今 AI 系统中仍大多缺失的关键能力。

用「世界模型」构建更美好的人类世界

推动 AI 发展的动机至关重要。

作为一名参与开启现代人工智能时代的科学家，我的初衷始终明确：AI 应当增强人类的能力，而非取而代之。

多年来，我一直致力于让 AI 的发展、应用与治理更好地契合人类需求。如今，关于科技乌托邦与末日论的极端叙事层出不穷，但我始终保持务实的信念：AI 由人创造，为人服务，并由人类治理。

它必须始终尊重人的自主性与尊严。AI 的真正魔力在于延展我们的能力——让我们变得更有创造力、更具连接性、更高效，也更充实。

空间智能正体现了这一愿景：

它是一种能赋能人类创作者、照护者、科学家与梦想家的人工智能，帮助我们实现曾经无法实现的目标。正是这种信念，支撑着我将「空间智能」视为人工智能下一个伟大前沿领域的决心。

空间智能的应用将分阶段展开。

如今，创意类工具已经开始出现——World Labs 的 Marble 已将这些能力交到创作者与故事讲述者手中。

机器人学是中期目标，我们正在不断完善「感知—行动」循环，使机器能够在物理世界中灵活操作。

而最具变革性的科学应用可能需要更长时间，但它们的影响将深远，足以促进人类福祉的全面提升。

在这些不同的发展阶段中，有若干关键领域尤为突出——它们蕴含着重新定义人类能力的巨大潜力。

要实现这一目标，必然需要集体的努力——远非一个团队或一家公司所能独立完成。

这将需要整个 AI 生态系统的共同参与：研究者、创新者、企业家、公司乃至政策制定者，都应携手朝着共同的愿景前进。

而这个愿景，值得我们为之奋斗。

未来，将由此展开。

创造力：为讲故事与沉浸式体验赋予超级能力

「创造力就是智慧在玩耍。」这是我最喜欢的一句名言，出自我个人的英雄——爱因斯坦。

在人类拥有文字之前，就已经在讲故事了——在洞穴的墙壁上作画、通过口口相传流传下来，并在共同的叙事中建立起整个文化。故事帮助我们理解世界，跨越时间与空间建立联系，探索「人类」意味着什么。更重要的是，它帮助我们在生命与爱中找到意义。

如今，空间智能有潜力彻底改变我们创作和体验故事的方式，不仅保留其根本的重要性，还将其影响力延伸至娱乐、教育、设计、建筑等多个领域。

World Labs 的 Marble 平台为电影制作人、游戏设计师、建筑师以及各类讲故事的人，提供了前所未有的空间能力和编辑控制权，让他们能够快速创建并反复迭代可自由探索的 3D 世界，而无需传统 3D 设计软件所需的大量投入。

创造本身依旧是充满人性和活力的行为，AI 工具只是放大并加速了创作者的潜能。这包括：

多维度叙事体验：电影人和游戏设计师正在利用 Marble 构建完整的虚拟世界，不再受限于预算或地理位置。他们能探索各种场景和视角，这在传统的制作流程中几乎是无法实现的。随着不同媒介和娱乐形式的界限逐渐模糊，我们正迈向全新的交互式体验形式，它融合了艺术、模拟和游戏——一个个个性化世界，不再仅属于大型工作室，而是任何人都可以创造和参与其中。随着更快速的方法将创意和分镜转化为完整体验，叙事将不再局限于某一种媒介，创作者可以在各种平台和界面上建立拥有共同线索的故事世界。

通过设计实现空间叙事：几乎所有制造出来的物品或建造的空间，在实际成形之前都必须先进行虚拟 3D 设计。这个过程通常需要大量时间和金钱，且高度反复。而借助具备空间智能的模型，建筑师可以在投入数月设计前快速可视化结构，甚至可以「走进」还不存在的空间——讲述我们未来如何生活、工作和聚会的故事。工业设计师和时尚设计师也可以立即将想象转化为形体，探索物体如何与人体和空间互动。

全新的沉浸式与互动体验：体验本身，是我们人类赋予事物意义的最深刻方式之一。在人类历史的绝大多数时间里，我们只拥有一个三维世界：我们共同生活的现实世界。直到近几十年，通过电子游戏和早期的虚拟现实（VR），我们才开始窥见由人类自己创造的另一个世界。而如今，空间智能结合虚拟现实（VR）、扩展现实（XR）头显以及沉浸式显示设备，使这些体验达到了前所未有的高度。我们正走向一个未来——进入完整构建的多维世界将像翻开一本书一样自然。空间智能让世界构建能力不仅属于拥有专业制作团队的工作室，也属于有故事、有想法的每一个人，包括独立创作者、教育者以及任何想要表达愿景的人。

机器人技术：行动中的具身智能

从昆虫到人类，动物依靠空间智能来理解、导航并与周围世界互动。机器人也不例外。具备空间感知能力的机器一直是机器人领域的梦想，我在斯坦福的研究实验室与学生和合作者们的工作，也正是围绕这一目标展开。

这也是我对 World Labs 所构建的模型充满期待的原因之一——它们有望让这一梦想成真。

通过世界模型扩展机器人学习能力：机器人学习的进步依赖于可扩展的高质量训练数据。考虑到机器人必须学会理解、推理、规划和互动的庞大状态空间，许多研究者认为要真正实现通用型机器人，必须结合互联网数据、合成仿真和现实世界中的人类示范数据。然而，与语言模型不同，机器人研究目前缺乏足够的训练数据。而世界模型将在其中发挥决定性作用。随着其感知逼真度和计算效率的提升，世界模型的输出可以迅速缩小仿真与现实之间的差距。这将有助于在无数种状态、互动和环境的模拟中训练机器人。

成为伙伴与协作助手：机器人作为人类的协作伙伴，无论是在实验室中辅助科学家，还是在家中帮助独居老人，都能在劳动力紧缺和生产效率亟需提升的背景下，承担重要角色。但要实现这一点，机器人必须具备空间智能：能够感知、推理、规划和行动，而且——这一点最关键——要能与人类的目标和行为保持情感上的一致性。例如，实验室里的机器人可以操作仪器，让科学家专注于需要精细操作或逻辑推理的任务；而家用机器人可以协助老年人做饭，同时不剥夺他们的乐趣与自主性。真正具备空间智能的世界模型，能够预测环境的下一步状态，甚至预测符合人类预期的动作，对于实现这一目标至关重要。

拓展具身形式的多样性：类人机器人确实适用于我们为自己打造的世界，但技术创新的全部潜力，将体现在更丰富多样的设计形式中：比如能够输送药物的纳米机器人、可在狭小空间中活动的软体机器人，以及为深海或外太空环境设计的专用机器。不论它们的外形如何，未来的空间智能模型都必须整合机器人所处的环境，以及其自身的感知与运动能力。但开发这些机器人面临的核心挑战之一，是缺乏适用于各种具身形式的训练数据。世界模型将在模拟数据生成、训练环境构建，以及任务基准测试等方面，发挥关键作用。

更长远的视野：科学、医疗与教育

除了在创意和机器人领域的应用，空间智能还将在其他领域产生深远影响，特别是在那些 AI 可以增强人类能力、挽救生命、加速发现的地方。我在下面重点介绍三个具有变革潜力的领域，当然，空间智能的应用远不止于此，还将在更多行业中大展拳脚。

在科学研究中，具备空间智能的系统可以模拟实验、并行测试假设，并探索人类难以抵达的环境——从深海到遥远的行星。这项技术将彻底改变气候科学、材料研究等领域的计算建模方式。通过将多维仿真与真实世界的数据采集相结合，这些工具可以降低计算门槛，扩展每一个实验室所能观察和理解的范围。

在医疗健康领域，空间智能将重塑从实验室到病床的各个环节。在斯坦福，我的学生和合作伙伴们多年来一直与医院、养老机构以及家庭中的病患合作。这些经验让我深信，空间智能在医疗中的变革潜力巨大。

AI 可以通过建模分子之间的多维交互，加速药物研发；通过辅助放射科医生识别医学影像中的模式，提升诊断精度；还可以实现环境感知型的监护系统，为病患和护理人员提供支持，同时不替代医疗过程中至关重要的人际联系。更不用说机器人在协助医护人员和患者方面，在多种场景中也大有可为。

在教育方面，空间智能能够实现沉浸式学习，让抽象或复杂的概念变得具体可感，并创造出与人类大脑和身体学习方式高度契合的、可反复练习的学习体验。在 AI 时代，无论是对学龄儿童还是成年人成年人来说，更快、更有效的学习和技能再培训都尤为关键。学生可以「进入」细胞机制，或亲身「走过」历史事件；教师可以借助交互式环境实现个性化教学；而从外科医生到工程师等专业人士，也能在逼真的模拟中安全地练习复杂技能。

虽然这些领域的应用前景几乎没有边界，但我们的目标始终如一：用 AI 增强人类的专业能力、加速人类的发现、放大人类的关怀——而不是取代那些构成人类本质的判断力、创造力与同理心。

结语

过去十年，人工智能已成为全球现象，并在科技、经济乃至地缘政治领域引发重大转折。但作为一名研究者、教育者、如今也是一位创业者，最令我振奋的，仍然是图灵在 75 年前提出的那个问题背后的精神。我依然怀有与他相同的那份好奇与敬畏之心。正是这种探索空间智能的挑战，成为我每天的动力源泉。

在人类历史上，我们第一次有机会打造出与物理世界高度协调的机器，使它们成为我们应对重大挑战时真正的合作伙伴。

无论是在实验室中加速对疾病的理解、彻底改变我们讲述故事的方式，还是在我们因疾病、受伤或衰老而处于最脆弱状态时给予支持，我们正站在这样一项技术的门槛前，它将提升那些我们最在乎的生活体验。这是一种更深刻、更丰富、更有力量的生活愿景。

在大约五亿年前，大自然首次赋予远古动物空间智能的萌芽。而今天，我们有幸成为这一代技术人中的一员，可能很快就能让机器也拥有这种能力——并有机会将这项能力用来造福全世界人民。没有空间智能，我们对「真正智能机器」的梦想就无法真正实现。

这个探索旅程，就是我心中的北极星。欢迎你与我一同追寻。

附上博客原地址：

https://drfeifei.substack.com/p/from-words-to-worlds-spatial-intelligence