脑机接口 X 空间智能：下一代脑机系统为什么需要理解世界？

脑机接口 X 空间智能：下一代脑机系统为什么需要理解世界？图1

认知的下一个疆域：脑机接口与空间智能的必然交汇

1950年，艾伦·图灵提出那个划时代的问题——“机器能思考吗？”或许未曾料到，七十年后，我们不仅要让机器“思考”，更要让机器“感知”和“存在”。当大语言模型将文本世界推向极致，我们发现，AI想要实现真正的“具身”，需要跨越一道鸿沟：从理解符号到理解物理世界，从解析语言到解析三维空间。而这正是脑机接口（BCI）与空间智能未来交汇的时代背景。

当前，脑机接口正经历从“接口”到“交互”再到“智能”的深刻跃迁。高小榕教授团队提出的I3模型展现了这一脉络：早期的BCI专注于修复运动功能，如今的闭环交互系统已能双向调节神经可塑性，而未来的脑机智能，则是生物智能与人工智能的“认知协同”。

然而，无论算法如何精进，BCI始终面临一个核心瓶颈——它解译了大脑的“意图”，却缺乏对物理世界的深刻理解。我们能让机械臂抓取杯子，但机械臂却难以理解杯子的材质、重量、在空间中的相对位置以及抓取动作的物理后果。

李飞飞教授对此有着深刻的洞见，她指出：“如果没有空间智能，我们对真正智能机器的梦想将不会完整。”她将空间智能定义为“连接想象、感知和行动的能力”，是AI在三维时空中理解、推理、互动的基础架构。

这恰恰为脑机接口的下一站提供了关键拼图：BCI破解了大脑的认知密码，而空间智能为这些认知指令赋予了物理世界的“语法”与“逻辑”。二者融合，将不再是单向的“意念控制”，而是人机在共同物理语境中的双向“理解”与“协作”。

从“接口”到“智能”：脑机接口演进的逻辑必然

脑机接口并非新生事物。自上世纪七十年代Vidal基于视觉诱发电位（VEP）构建首个原型系统以来，BCI已走过半个世纪。高小榕教授团队在《Interface, interaction, and intelligence in generalized brain-computer interfaces》对这一技术演进的系统性梳理，并提出脑机接口的一个清晰的进化论框架--I3模型。该模型将BCI发展划分为三个递进阶段。

脑机接口 X 空间智能：下一代脑机系统为什么需要理解世界？图2

图一种广义BCI技术的演变模型（I3模型）

第一阶段：脑机接口。这是经典的、单向的“指令-输出”模式。无论是P300拼写器帮助渐冻症患者拼出字母，还是基于感觉运动节律（SMR）的机械臂控制，其核心都在于建立一个替代外周神经的“数据线”。此阶段的关键在于信道容量，即信息传输率（ITR）。正如高小榕教授所言：“对于现有的BCI系统，信道容量不足已成为BCI技术应用的主要障碍。”编码在大脑，解码在机器，过程如同早期电报，笨拙且低效。它实现了“连接”，却未触及“互动”。

第二阶段：脑机交互。闭环的出现是分水岭。系统不再仅是执行命令，而是将外部设备的状态或环境信息，通过电刺激或神经反馈回传至大脑。例如，神经假体在控制机械臂抓取时，会将触觉传感器的信号转化为体感信息，直接刺激大脑初级躯体感觉皮层（S1）。这使得用户能“感觉”到抓取。这里有两条路径：一条控制外部设备，另一条调节大脑状态。双向交互不仅提升了控制的精准度，更为神经康复打开了大门——通过直接调节神经活动来重塑功能。这是从“通信”到“对话”的跃升。

第三阶段：脑机智能。这是当前正在展开的前沿图景。随着生成式AI的爆发，传统BCI面临的“解码瓶颈”正被大模型破解。这一阶段的核心在于“认知信号的产生、人类认知信息与人工智能计算的耦合、以及人与AI的协同适应学习”。 不再局限于感觉与运动皮层，BCI开始解码来自前额叶等高级脑区的“高阶认知信号”，如意图、决策、错误相关电位（ErrP）。这些信号编码的是目标导向的抽象意图，而非具体的动作指令。

脑机接口 X 空间智能：下一代脑机系统为什么需要理解世界？图3

图 BCI和AI

此时，BCI与AI形成“增强循环”：AI解读模糊的神经信号，并生成环境反馈；人类则通过与AI的互动，调整自身的认知策略。这不再是简单的“脑控机器”，而是“脑机融合智能”。然而，这个阶段暴露出一个关键短板：当前的AI大多缺乏对物理世界的“体感”和“常识”。大语言模型可以写出关于咖啡的优美散文，却无法理解如何在不打翻杯子的情况下拿起它。这便引出了通往下一阶段的关键技术——空间智能。

空间智能：认知世界的基础架构与AI的“暗物质”

如果说语言是AI的“显性知识”，那么空间智能就是AI的“暗物质”——它构成了智能体与物理世界互动的隐性基础，却长期被主流AI研究所忽视。李飞飞教授在其论述中表示空间智能是“人类认知基础架构”，这一判断为理解未来AI，尤其是具身AI，提供了范式级的坐标。

来源：World Labs

首先，空间智能源于演化，先于语言。

视觉一直是人类智能的基石之一，但它的力量源自更为基础的某种东西。在动物学会筑巢、照料幼崽、用语言沟通或建立文明之前很久，“感知”这一看似孤立的能力——感受到一缕微光，触到某种纹理——就悄然点燃了一条通往智能的演化之路。

视觉与空间感知驱动的“感知-行动”循环，是智能演化的核心引擎。这意味着，真正的智能并非纯粹的符号计算，而是根植于对物理世界的直觉把握。我们对世界的看法是整体的——不仅仅是我们正在看的东西，还包括一切事物在空间上如何关联、它意味着什么以及为什么重要。今天的AI，恰恰缺失这种“整体感”。多模态大模型（MLLM）虽能描述图像，却在估计距离、方向或预测简单物理碰撞时表现拙劣——它们有“视”而无“觉”。

其次，空间智能的本质是世界模型的构建。 李飞飞在其论述中表示，要实现空间智能，必须构建“世界模型”，并为其定义了三大核心能力：

1、生成性：生成具有感知、几何和物理一致性的世界。这意味着模型能模拟出符合物理定律的动态三维场景，而非二维像素的拼贴。
2、多模态：能够处理图像、视频、深度图、文本指令乃至手势等多种输入形式。这是与真实世界复杂交互的前提。
3、交互性：能够基于输入动作，预测并输出世界的“下一个状态”。这是智能体得以规划与行动的基础。

李飞飞团队的项目“Marble”正是这一理念的初探——它能依据多模态输入，生成可供探索和互动的连贯3D环境。这标志着AI从“观察者”向“参与者”的转变。

最后，空间智能是连接“想象”与“行动”的桥梁。

历史上，真正塑造文明走向的转折点，几乎都有空间智能的影子。古希腊的埃拉托斯特尼，在太阳直射赛因城的刹那，测量出亚历山大港7度的日影倾角，将影子化为几何，由此推算出地球的周长。沃森与克里克亲手搭建三维分子模型，反复摆弄金属板和金属丝，直到碱基对的空间排布在某个瞬间“咔哒”一声严丝合缝。每一桩案例中，空间智能都成为文明演进的关键推力：发明家与科学家必须操纵实物、构型结构、推演物理空间——这一切，远非语言文字所能精准描述的。

当这一能力赋予AI，机器将不仅能“听令”，更能“理解”指令在物理世界中的真实含义与后果。这恰恰是BCI走向“脑机智能”阶段所缺失的关键一环。

应用重构：认知意图与物理世界的“语法”对接

当脑机接口的“认知解码”能力，遇见空间智能的“世界模型”能力，无数曾经只存在于科幻中的应用场景将有可能实心。这也许会形成交互范式的重构——从“意图输出”进化为“意图实现”。我们可以从以下四个维度观察其应用图谱：

一、医疗康复与神经重塑的“具身化”

传统康复BCI，如针对卒中患者的功能电刺激，往往采用“刺激-响应”的模式。融合空间智能后，系统将发生质变。例如，一个瘫痪患者意图“拿起水杯喝水”。BCI解码其运动皮层的高阶意图信号（目标与动作序列），空间智能模型则实时构建患者周围环境的3D语义地图——识别水杯的位置、形状、材质及抓取空间路径。

基于世界模型的预测能力，系统能预演“抓取”动作的物理后果，并通过外骨骼或神经肌肉电刺激，引导患者以最符合物理规律和安全约束的方式完成动作。更重要的是，基于神经反馈训练的原理，系统能将错误的动作预测与正确的物理模拟结果进行对比，生成差异信号回传至大脑，加速运动皮层的神经重塑。这使康复从“被动训练”升级为“认知-物理-神经”的协同塑造。

二、智能座舱与工业安全的“认知-物理预警”

在驾驶或高危作业场景中，人的认知状态与物理环境风险高度耦合。AI可对采集的环境信息编码并反馈给用户，提高系统运行稳定性。 结合空间智能，这一“编码-反馈”将变得前所未有的精准。

系统通过BCI实时监测驾驶员的专注度、疲劳度及情绪状态（认知层面），同时通过空间智能模型持续分析车辆周围的动态3D环境——行人轨迹、车辆间距、路面障碍（物理层面）。当系统预测到“认知延迟”与“物理危险”即将交汇时（例如，疲劳状态下的驾驶员接近复杂路口），它并非简单报警，而是通过BCI向大脑特定区域（如前额叶）施加微电流或触觉反馈，直接提升认知唤醒水平，同时通过平视显示器（HUD）或增强现实（AR）高亮显示关键风险区域。这实现了从“被动响应”到“认知预判”的跨越。

三、沉浸式教育与技能培训的“知行合一”

语言和视频教学始终存在“描述-体验”鸿沟。空间智能驱动的世界模型，可以生成完全沉浸式、可交互的三维教学场景。但更关键的是BCI的加入，以神经外科医生培训为例，学员在虚拟手术中操作，其脑电信号中的决策模式、注意力分布与操作精准度被BCI实时捕捉。

空间智能模型不仅模拟组织器官的物理反馈，更关键的是，它能根据学员的认知意图（BCI解码）和实际动作（手势追踪），动态调整模拟难度与反馈方式。例如，当学员意图分离血管但动作偏移时，空间模型能实时预测“误切”的物理后果，并通过视觉/触觉强化反馈，而BCI则记录下这一“错误意图-错误动作-错误后果”的神经关联，形成更深刻的记忆印记。这是对高小榕教授所展望的“人脑与机器的交互协作，实现人类智能增强（IA）”的最佳实践。

具身智能：推动融合的物理引擎

脑机接口与空间智能的融合，并非实验室中的逻辑推演，其最根本的现实驱动力来自于“具身智能”（Embodied AI）的迫切需求。具身智能强调的是智能体通过身体与环境进行动态交互来获取和发展智能。感知和行动成为驱动智能进化的核心循环。这一循环，恰恰是BCI与空间智能结合的“物理引擎”。

一方面，具身智能为脑机接口提供了“行动”的终极验证场。 由于经典BCI的信道容量限制是主要障碍，而具身交互天然要求高带宽、低延迟的闭环。在具身场景中，机器人或外骨骼的每一个动作都伴随着即时的物理反馈（力觉、触觉、视觉变化）。脑机交互系统“接收运动输出和发送感觉输入”的双向机制，在具身智能中变得极度频繁和复杂。 这倒逼BCI技术必须从解码“感觉/运动”信号，向解码更高阶的“认知/意图”信号演进，因为只有高阶意图才能承载具身行为中繁杂的实时控制细节。可以说，具身智能是推动BCI从“交互”阶段迈入“智能”阶段的终极验证场”。

另一方面，具身智能为空间智能提供了“数据”与“目标”。 训练世界模型的最大挑战之一在于数据。具身智能体在与环境交互中产生的“第一人称”视角、伴随物理动作的多模态数据（如深度、力觉、惯性），是构建真正“扎根于物理现实”的空间智能模型的理想养料。 更重要的是，具身智能的目标——“行动”与“改变世界”——反过来定义了空间智能模型的评价标准：一个世界模型是否足够好，不取决于其生成的画面多逼真，而取决于它能否准确预测行动后的世界状态（李飞飞定义的“交互性”）。BCI解码出的“意图”，正是驱动这一“预测-行动-验证”循环的最直接、最自然的指令源。

因此，具身智能并非一个单纯的AI分支，也是BCI与空间智能融合的“链接器”。它链接空间智能去直面物理定律，它链接脑机接口跳出“意念拼写”去驾驭复杂行动。三者在具身框架下的螺旋式进化，才是通向“通用智能体”的技术一道门。

实际上，产业界的探索也已同步推进。近日，熵基科技与为旌科技于近日达成战略合作，双方将共同发力，推动脑机接口、空间智能与人工智能的跨领域融合，为未来智能技术开辟新的应用路径。

未来判断：认知与空间的共轭进化

回望BCI的演化史，从Vidal的VEP-BCI到现代的脑机智能系统，信道容量与解码精度是一个瓶颈。而空间智能的崛起，则提供了另一个解法——当AI真正理解物理世界的“语法”，大脑意图的“模糊指令”便能被映射为精确、连贯、符合物理规律的行动序列。反之，空间智能若缺少BCI提供的“认知意图”输入，其交互性将停留在“指令-响应”的机械层面，难以触及人类丰富而微妙的决策过程。

我们正处在双重进化的交汇点：从“符号智能”向“具身智能”延伸，从“脑控机器”向“脑机融合”演进。这或许不仅意味着技术范式的更迭，更关乎我们如何重新定义“人”的认知边界。

作者：邹思，AI视觉、动作理解领域博士，脑机接口社区创始人

参考：

Xiaorong Gao, Yijun Wang, Xiaogang Chen, Shangkai Gao,Interface, interaction, and intelligence in generalized brain–computer interfaces,Trends in Cognitive Sciences,Volume 25, Issue 8,2021,Pages 671-684.

https://drfeifei.substack.com/p/from-words-to-worlds-spatial-intelligence