从脑电图和脑磁图中解码自然图像

从脑电图和脑磁图中解码自然图像图1

当一个人看到一张图片时，大脑中到底发生了什么？

更进一步地说：我们能不能仅凭一段脑电信号，推断出这个人刚刚看到了什么？

这听起来像科幻电影里的“读心术”。但更准确地说，这并不是读取一个人的完整想法，而是尝试理解：当人脑看到不同图像时，EEG 信号中是否会留下可以被 AI 捕捉的视觉语义痕迹？

近日，电子科技大学徐鹏教授团队发表了一项关于 EEG 自然图像解码的研究论文 “Decoding Natural Images from EEG Signals Using a Learnable Multi-band Spatio-Temporal Encoder” 。研究提出了一种新的脑电编码模型 MB-ST（Multi-Band Spatio-Temporal Encoder，多频带时空编码器），尝试从低信噪比、强个体差异和复杂非平稳的 EEG 信号中学习人脑对自然图像的视觉表征。

从脑电图和脑磁图中解码自然图像图2

研究整体框架图

01 不是“读心术”，而是让 AI 学习大脑对图像的反应

人类视觉系统非常复杂。当我们看到一只动物、一件工具或一种食物时，视觉信息并不是简单地“进入眼睛”，而是会在大脑中经历一系列加工过程：从边缘、颜色、形状等低级视觉特征，到物体类别、语义关系和情境理解。

过去，很多视觉神经解码研究主要依赖 fMRI。fMRI 具有较高的空间分辨率，能够较好地定位大脑活动区域，但也存在设备昂贵、采集环境受限、时间分辨率较低等限制，难以直接用于实时脑机接口场景。

相比之下，EEG 更加便携，采集成本更低，并且具有毫秒级时间分辨率，更适合进一步探索实时脑机接口应用。

但 EEG 的难点也非常突出：信号弱、噪声强、个体差异明显，而且脑电信号与图像语义之间并不存在直接、显性的对应关系。

本研究关注的核心问题

如何让模型从 EEG 信号中提取与视觉图像相关的有效信息，并将其映射到图像语义空间中？

从脑电图和脑磁图中解码自然图像图3

图 1 | EEG 视觉解码整体框架：训练阶段对齐 EEG 与图像表征，推理阶段通过相似度完成零样本图像识别。

02 AI 如何从脑电中寻找图像？关键是让两种信号“说同一种语言”

本研究采用跨模态对齐思路。在训练阶段，图像首先通过预训练 CLIP 模型提取图像语义特征；同时，EEG 信号输入到 MB-ST 编码器中，得到脑电特征。随后，模型通过对比学习，让同一张图像对应的 EEG 表征和图像表征尽可能接近，而让不匹配的 EEG—图像对尽可能远离。

模型不断学习一个问题：“这段 EEG 更像是哪张图片引发的大脑反应？”

到了推理阶段，模型面对训练过程中未见过的测试图像类别，不需要重新训练，而是计算 EEG 表征与候选图像表征之间的相似度，从而完成零样本视觉解码。

什么是零样本（zero-shot）识别？

可以把零样本识别理解为一场“没有提前背题”的考试。普通分类更像在复习后完成熟悉的选择题；零样本识别则要求模型面对训练时未见过的测试类别，依靠已经学到的视觉语义关系完成判断，而不是简单依赖记忆。

因此，这项任务更能检验模型是否真正学到了 EEG 信号与图像语义之间可迁移的对应关系。

03 MB-ST：同时理解 EEG 的“频率”和“时空结构”

EEG 信号并不是普通的一维时间序列。它同时包含频率、时间和空间通道上的复杂信息。传统 EEG 解码方法往往只关注其中某一类特征：有的方法侧重频域特征，例如 delta、theta、alpha、beta、gamma 等节律；有的方法侧重时空特征，例如不同脑区在不同时间段的响应模式。

但在真实视觉加工过程中，大脑活动并不是单一维度变化，而是多个频段、多个脑区、多个时间尺度共同作用的结果。因此，研究人员设计了 MB-ST 编码器，主要包含三个部分：

·频带分解模块 FB Module：将 EEG 信号分解到不同频段，并利用可学习滤波器自适应捕捉不同频带中的有效神经活动模式。

·时空特征提取模块 ST Block：利用多尺度卷积核，从不同时间尺度上提取 EEG 动态变化，同时结合空间通道信息，学习脑区之间的协同响应。

·嵌入投影层 Projector：将 EEG 特征映射到与图像特征相同的共享语义空间中，使脑电表征能够与图像表征进行跨模态对齐。

MB-ST 并不是直接“猜图像”，而是先学习：当大脑看到某一类图像时，EEG 信号中会出现怎样的频率变化、时空模式和语义关联。

从脑电图和脑磁图中解码自然图像图4

图 2 | MB-ST 编码器结构：由频带分解模块、时空特征提取模块和嵌入投影层组成。

04 大脑不会只用一种节奏思考：为什么模型要同时捕捉多个频段？

EEG 中不同频段往往对应不同神经活动特征。例如，alpha、beta 等节律常被用于分析视觉加工、注意调控和认知活动。传统方法通常先人为划分频段，再提取功率谱密度等特征。但这种方式存在一个问题：频段划分是固定的，模型很难根据具体任务自适应调整频域特征。

MB-ST 的频带分解模块引入了可学习滤波器，使模型可以在不同频带内自动增强或抑制特定频率成分。换句话说，模型不只是“被动接收”预定义频段，而是能够进一步学习：哪些频率成分对图像解码更重要？哪些频率变化更可能反映大脑对视觉刺激的响应？

从脑电图和脑磁图中解码自然图像图5

图 3 | 模型在 delta、theta、alpha、beta、gamma 五个频段中学习到的滤波器参数分布。

05 只有频率还不够：大脑活动还会随时间和脑区不断变化

看到一张图像时，大脑活动会随着时间快速变化，不同脑区也会参与不同层次的视觉加工。例如，枕叶区域与视觉输入关系密切，顶叶和颞叶区域可能参与空间、物体和语义加工，额叶区域则可能与注意和高级认知调控有关。

因此，MB-ST 在频域建模之外，还设计了 ST Block，用多尺度卷积核提取不同时间尺度上的 EEG 动态特征。不同大小的卷积核可以理解为不同的“时间观察窗口”：

·小卷积核关注瞬时变化；

·中等卷积核捕捉短时动态；

·大卷积核提取更持续的时序模式。

这样，模型能够同时关注快速变化和相对稳定的脑电响应，从而形成更加完整的时空表征。

06 没有提前见过答案，模型还能从 200 类图像中找到正确结果吗？

课题组在 THINGS-EEG 数据集上进行了系统验证。该数据集包含 10 名被试在观看大量自然图像时采集的 EEG 信号，是 EEG 视觉解码研究中的重要基准数据集。

实验采用零样本分类任务，也就是说，模型需要面对训练过程中未见过的测试图像类别。结果显示，在具有挑战性的 200 类零样本图像分类任务中，MB-ST 取得了优于多种现有方法的表现。

Top-1 准确率：17.6%

Top-5 准确率：51.2%

这意味着，在 200 个候选图像类别中，模型有超过一半的机会能把正确答案排进前 5 个候选结果中。对于 EEG 视觉解码而言，这并不容易：EEG 信号本身极其微弱，不同被试之间又存在明显差异，要在 200 个自然图像类别中完成零样本解码，本身就是一个非常困难的任务。

更重要的是，MB-ST 不仅在被试依赖场景中表现较好，在被试独立场景中也保持了较强性能，说明模型具有一定的跨个体泛化能力。

从脑电图和脑磁图中解码自然图像图6

图 4 | MB-ST 在不同分类规模下均取得较优表现，并在 200 类零样本分类任务中保持领先。

从脑电图和脑磁图中解码自然图像图7

图 5 | 200 类零样本分类结果：MB-ST 在被试依赖与被试独立场景中均取得较好的平均表现。

07 不只是 EEG：MB-ST 还展现出跨模态泛化能力

为了进一步验证模型的泛化能力，研究团队还在 THINGS-MEG 数据集上进行了实验。EEG 和 MEG 虽然采集原理不同，但二者都反映了大脑神经活动，尤其是在视觉刺激任务中，都可以捕捉到与视觉加工相关的神经动态。

结果显示，随着分类类别数量从 50 类增加到 200 类，MB-ST 在 Top-5 指标上仍保持较好的稳定性。特别是在最具挑战性的 200 类 MEG 零样本分类任务中，MB-ST 取得了领先的 Top-5 表现。

这说明 MB-ST 学到的并不只是某一个 EEG 数据集上的表面模式，而是更具有跨模态泛化潜力的神经表征。

从脑电图和脑磁图中解码自然图像图8

图 6 | 在 MEG 数据上的 50 类、100 类和 200 类零样本分类任务中，MB-ST 展现出较好的 Top-5 表现。

08 3.62 毫秒完成一次推理：距离实时脑机接口还有多远？

脑机接口能否走向真实应用，一个关键问题是：模型能不能实时运行？如果模型识别准确但推理速度很慢，那么它很难用于在线脑机交互。

因此，进一步评估了 MB-ST 的实时处理能力。实验结果显示：

平均单样本推理延迟：3.62 ms

对应处理频率：276.47 Hz

这一速度超过常见 EEG 采样率 250 Hz，说明 MB-ST 在计算效率上具备实时 EEG 解码潜力。换句话说，该模型不仅能“解码”，也具备进一步走向在线脑机接口系统的可能性。

从脑电图和脑磁图中解码自然图像图9

图 7 | MB-ST 实时处理性能：模型具有较低推理延迟和较高处理频率。

09 它真的学到了脑电规律，还是只是在“碰运气”？

深度学习模型在脑科学任务中经常面临一个问题：模型效果不错，但它到底学到了什么？为了回答这个问题，研究人员从多个角度进行了可解释性分析。

首先，可视化了模型中可学习频带滤波器的参数变化。结果发现，随着训练进行，滤波器参数逐渐收敛并形成稳定分布，说明模型确实学习到了与视觉解码相关的频域模式。

其次，观察了 EEG 信号经过频带滤波前后的变化。结果显示，经过可学习滤波处理后，原始信号在频谱结构上呈现出更丰富的特征，说明模型能够发现传统时域观察中难以直接捕捉的潜在信息。

从脑电图和脑磁图中解码自然图像图10

图 8 | beta 频段滤波器参数随训练逐渐稳定，说明模型学习到了稳定的频域表示。

从脑电图和脑磁图中解码自然图像图11

图 9 | EEG 信号经过 FB Module 前后的时域与频域变化，显示可学习滤波器对潜在频域特征的增强作用。

10 Grad-CAM 显示：模型关注到了与视觉加工相关的脑区

为了进一步观察模型在空间维度上关注了哪些脑区，研究人员采用 Grad-CAM 进行了可视化分析。

结果显示，原始 EEG 输入的关注区域相对分散；经过 FB Module 后，模型对部分频域相关脑区的响应更加清晰；进一步结合 ST Block 后，模型关注区域扩展到额叶、顶叶、颞叶和枕叶等区域，呈现出更加结构化的空间模式。

这与视觉加工中的脑区协同机制具有一定一致性：枕叶区域与低级视觉加工密切相关；颞叶区域与物体识别和语义加工有关；顶叶区域可能参与空间注意与视觉整合；额叶区域则可能与注意调控和高级认知过程相关。

因此，MB-ST 不仅在性能上有效，其学习到的特征也具有一定神经生理可解释性。

从脑电图和脑磁图中解码自然图像图12

图 10 | Grad-CAM 可视化结果显示，MB-ST 逐步形成更加结构化、具有生理意义的脑区关注模式。

11 从“识别类别”到“理解语义”：EEG 特征也能形成语义聚类

更有意思的是，研究人员还分析了 EEG 特征与图像语义之间的关系。

在零样本解码结果中，模型不仅能够预测正确图像，还能在语义相近的候选图像中给出合理排序。例如，当目标图像与其他候选图像在视觉或语义上比较接近时，模型可能无法始终把正确结果排在 Top-1，但通常仍能把它放入 Top-5 候选范围。

这说明，MB-ST 学到的 EEG 表征并不是完全随机的分类信号，而是包含一定视觉语义结构。进一步的聚类分析也显示，原始 EEG 特征往往较为分散；而经过 MB-ST 编码后的 EEG 特征在语义空间中呈现出更清晰的类内聚集现象，更接近图像嵌入的分布结构。

从脑电图和脑磁图中解码自然图像图13

图 11 | MB-ST 的 Top-1 至 Top-5 预测结果显示，模型能够捕捉 EEG 与图像语义之间的对应关系。

从脑电图和脑磁图中解码自然图像图14

图 12 | UMAP 聚类结果显示，经过 MB-ST 编码后的 EEG 特征呈现出更清晰的语义聚集结构。

12 同一幅图像，为什么不同人的大脑可能给出不同答案？

研究中还有一个很有意思的发现：对于语义较明确的图像，例如猎豹、大象、秋葵和洋葱，不同被试的 EEG 特征通常表现出较为一致的聚类结果。

但对于含义更加抽象，或者容易引发多种联想的图像，不同被试可能表现出不同的语义理解方式。

生活化联想

想象一下，几个人同时看到一张保温杯的照片。有人首先想到的是“杯子”，会把它归入日常容器；有人想到的是办公室，会把它与电脑、笔记本和工位联系起来；有人经常健身，看到的可能是运动装备；还有人经常旅行，第一反应则可能是通勤、露营或户外生活。图片本身没有发生变化，但每个人调用的经验、场景和语义关系可能并不完全相同。

类似地，在分析中，对于语义相对清晰的图像，不同被试往往表现出更一致的脑电特征聚类；而对于更容易产生多重解释的图像，不同人的 EEG 表征可能呈现出不同的语义组织方式。

需要强调的是，这并不意味着模型已经能够准确读取每个人脑海中的具体想法。但它提示我们：EEG 视觉解码不仅可以尝试回答“被试看到了什么”，还可能帮助我们进一步探索“不同人的大脑如何理解同一幅图像”。

从脑电图和脑磁图中解码自然图像图15

图 13 | 对于语义较明确的图像，不同被试表现出相对一致的聚类结果；对于更容易产生多重解释的图像，不同被试可能形成不同的语义关联。

13 这项研究意味着什么？

这项研究并不是要宣称“机器已经可以完全读取人脑画面”。事实上，当前 EEG 视觉解码仍然面临很多挑战，例如数据规模有限、个体差异明显、复杂动态视觉刺激解码困难，以及从分类走向高质量图像重建仍有较长距离。

但它证明了一件重要的事情：通过合适的神经网络结构和跨模态对齐方法，EEG 信号中确实包含可以被模型捕捉和利用的视觉语义信息。

MB-ST 的意义在于，它将 EEG 的频域特征、时空动态特征和图像语义空间有效结合起来，使 EEG 视觉解码在三个方面向前推进了一步：

·性能更强：在 THINGS-EEG 的 200 类零样本图像分类任务中取得领先表现。

·效率更高：平均单样本推理延迟仅为 3.62 ms，具备实时 EEG 解码潜力。

·更可解释：通过滤波器可视化、Grad-CAM 和语义聚类分析，展示了模型学习到的频域、脑区和语义结构。

未来，这类技术有望进一步拓展到脑机接口中的视觉辅助交互、面向认知状态理解的神经解码、基于脑信号的图像或视频重建，以及更加自然、实时和智能的人机交互系统。

结语

从“看到图像”到“解码大脑对图像的反应”，这中间隔着复杂的神经机制、微弱的脑电信号和艰难的跨模态建模问题。

该项研究尝试向这个方向迈出一步：让模型不仅看到图像，也学会理解大脑如何响应图像。

脑机接口的未来，也许并不是简单地让机器替代人类思考，而是让机器更好地理解人类大脑中的感知、认知与意图。这正是 EEG 视觉解码研究最令人期待的地方。

原文链接：

https://www.sciencedirect.com/science/article/pii/S0925231225029819

从脑电图和脑磁图中解码自然图像图16

作者简介：薛志远，四川大学电气工程学院自动化系2022级硕士研究生，现供职华为。徐鹏，电子科技大学教授，博导，研究方向包括脑认知解码，脑机接口等前沿领域。张军鹏，四川大学电气工程学院自动化系副教授，博导，研究方向为人工智能在医学应用，脑机接口等。公众号作者为四川大学电气工程学院自动化系2023级硕士研究生康子胜，他的研究方向为脑机接口等。