
当一个人看到一张图片时,大脑中到底发生了什么?
更进一步地说:我们能不能仅凭一段脑电信号,推断出这个人刚刚看到了什么?
这听起来像科幻电影里的“读心术”。但更准确地说,这并不是读取一个人的完整想法,而是尝试理解:当人脑看到不同图像时,EEG 信号中是否会留下可以被 AI 捕捉的视觉语义痕迹?
近日,电子科技大学徐鹏教授团队发表了一项关于 EEG 自然图像解码的研究论文 “Decoding Natural Images from EEG Signals Using a Learnable Multi-band Spatio-Temporal Encoder” 。研究提出了一种新的脑电编码模型 MB-ST(Multi-Band Spatio-Temporal Encoder,多频带时空编码器),尝试从低信噪比、强个体差异和复杂非平稳的 EEG 信号中学习人脑对自然图像的视觉表征。

研究整体框架图
01 不是“读心术”,而是让 AI 学习大脑对图像的反应
人类视觉系统非常复杂。当我们看到一只动物、一件工具或一种食物时,视觉信息并不是简单地“进入眼睛”,而是会在大脑中经历一系列加工过程:从边缘、颜色、形状等低级视觉特征,到物体类别、语义关系和情境理解。
过去,很多视觉神经解码研究主要依赖 fMRI。fMRI 具有较高的空间分辨率,能够较好地定位大脑活动区域,但也存在设备昂贵、采集环境受限、时间分辨率较低等限制,难以直接用于实时脑机接口场景。
相比之下,EEG 更加便携,采集成本更低,并且具有毫秒级时间分辨率,更适合进一步探索实时脑机接口应用。
但 EEG 的难点也非常突出:信号弱、噪声强、个体差异明显,而且脑电信号与图像语义之间并不存在直接、显性的对应关系。
本研究关注的核心问题 如何让模型从 EEG 信号中提取与视觉图像相关的有效信息,并将其映射到图像语义空间中? |

图 1 | EEG 视觉解码整体框架:训练阶段对齐 EEG 与图像表征,推理阶段通过相似度完成零样本图像识别。
02 AI 如何从脑电中寻找图像?关键是让两种信号“说同一种语言”
本研究采用跨模态对齐思路。在训练阶段,图像首先通过预训练 CLIP 模型提取图像语义特征;同时,EEG 信号输入到 MB-ST 编码器中,得到脑电特征。随后,模型通过对比学习,让同一张图像对应的 EEG 表征和图像表征尽可能接近,而让不匹配的 EEG—图像对尽可能远离。
模型不断学习一个问题:“这段 EEG 更像是哪张图片引发的大脑反应?” |
到了推理阶段,模型面对训练过程中未见过的测试图像类别,不需要重新训练,而是计算 EEG 表征与候选图像表征之间的相似度,从而完成零样本视觉解码。
什么是零样本(zero-shot)识别? 可以把零样本识别理解为一场“没有提前背题”的考试。普通分类更像在复习后完成熟悉的选择题;零样本识别则要求模型面对训练时未见过的测试类别,依靠已经学到的视觉语义关系完成判断,而不是简单依赖记忆。 |
因此,这项任务更能检验模型是否真正学到了 EEG 信号与图像语义之间可迁移的对应关系。
03 MB-ST:同时理解 EEG 的“频率”和“时空结构”
EEG 信号并不是普通的一维时间序列。它同时包含频率、时间和空间通道上的复杂信息。传统 EEG 解码方法往往只关注其中某一类特征:有的方法侧重频域特征,例如 delta、theta、alpha、beta、gamma 等节律;有的方法侧重时空特征,例如不同脑区在不同时间段的响应模式。
但在真实视觉加工过程中,大脑活动并不是单一维度变化,而是多个频段、多个脑区、多个时间尺度共同作用的结果。因此,研究人员设计了 MB-ST 编码器,主要包含三个部分:
·频带分解模块 FB Module:将 EEG 信号分解到不同频段,并利用可学习滤波器自适应捕捉不同频带中的有效神经活动模式。
·时空特征提取模块 ST Block:利用多尺度卷积核,从不同时间尺度上提取 EEG 动态变化,同时结合空间通道信息,学习脑区之间的协同响应。
·嵌入投影层 Projector:将 EEG 特征映射到与图像特征相同的共享语义空间中,使脑电表征能够与图像表征进行跨模态对齐。
MB-ST 并不是直接“猜图像”,而是先学习:当大脑看到某一类图像时,EEG 信号中会出现怎样的频率变化、时空模式和语义关联。 |

图 2 | MB-ST 编码器结构:由频带分解模块、时空特征提取模块和嵌入投影层组成。
04 大脑不会只用一种节奏思考:为什么模型要同时捕捉多个频段?
EEG 中不同频段往往对应不同神经活动特征。例如,alpha、beta 等节律常被用于分析视觉加工、注意调控和认知活动。传统方法通常先人为划分频段,再提取功率谱密度等特征。但这种方式存在一个问题:频段划分是固定的,模型很难根据具体任务自适应调整频域特征。
MB-ST 的频带分解模块引入了可学习滤波器,使模型可以在不同频带内自动增强或抑制特定频率成分。换句话说,模型不只是“被动接收”预定义频段,而是能够进一步学习:哪些频率成分对图像解码更重要?哪些频率变化更可能反映大脑对视觉刺激的响应?

图 3 | 模型在 delta、theta、alpha、beta、gamma 五个频段中学习到的滤波器参数分布。
05 只有频率还不够:大脑活动还会随时间和脑区不断变化
看到一张图像时,大脑活动会随着时间快速变化,不同脑区也会参与不同层次的视觉加工。例如,枕叶区域与视觉输入关系密切,顶叶和颞叶区域可能参与空间、物体和语义加工,额叶区域则可能与注意和高级认知调控有关。
因此,MB-ST 在频域建模之外,还设计了 ST Block,用多尺度卷积核提取不同时间尺度上的 EEG 动态特征。不同大小的卷积核可以理解为不同的“时间观察窗口”:
·小卷积核关注瞬时变化;
·中等卷积核捕捉短时动态;
·大卷积核提取更持续的时序模式。
这样,模型能够同时关注快速变化和相对稳定的脑电响应,从而形成更加完整的时空表征。
06 没有提前见过答案,模型还能从 200 类图像中找到正确结果吗?
课题组在 THINGS-EEG 数据集上进行了系统验证。该数据集包含 10 名被试在观看大量自然图像时采集的 EEG 信号,是 EEG 视觉解码研究中的重要基准数据集。
实验采用零样本分类任务,也就是说,模型需要面对训练过程中未见过的测试图像类别。结果显示,在具有挑战性的 200 类零样本图像分类任务中,MB-ST 取得了优于多种现有方法的表现。
Top-1 准确率:17.6%
Top-5 准确率:51.2%
这意味着,在 200 个候选图像类别中,模型有超过一半的机会能把正确答案排进前 5 个候选结果中。对于 EEG 视觉解码而言,这并不容易:EEG 信号本身极其微弱,不同被试之间又存在明显差异,要在 200 个自然图像类别中完成零样本解码,本身就是一个非常困难的任务。
更重要的是,MB-ST 不仅在被试依赖场景中表现较好,在被试独立场景中也保持了较强性能,说明模型具有一定的跨个体泛化能力。

图 4 | MB-ST 在不同分类规模下均取得较优表现,并在 200 类零样本分类任务中保持领先。

图 5 | 200 类零样本分类结果:MB-ST 在被试依赖与被试独立场景中均取得较好的平均表现。
07 不只是 EEG:MB-ST 还展现出跨模态泛化能力
为了进一步验证模型的泛化能力,研究团队还在 THINGS-MEG 数据集上进行了实验。EEG 和 MEG 虽然采集原理不同,但二者都反映了大脑神经活动,尤其是在视觉刺激任务中,都可以捕捉到与视觉加工相关的神经动态。
结果显示,随着分类类别数量从 50 类增加到 200 类,MB-ST 在 Top-5 指标上仍保持较好的稳定性。特别是在最具挑战性的 200 类 MEG 零样本分类任务中,MB-ST 取得了领先的 Top-5 表现。
这说明 MB-ST 学到的并不只是某一个 EEG 数据集上的表面模式,而是更具有跨模态泛化潜力的神经表征。

图 6 | 在 MEG 数据上的 50 类、100 类和 200 类零样本分类任务中,MB-ST 展现出较好的 Top-5 表现。
08 3.62 毫秒完成一次推理:距离实时脑机接口还有多远?
脑机接口能否走向真实应用,一个关键问题是:模型能不能实时运行?如果模型识别准确但推理速度很慢,那么它很难用于在线脑机交互。
因此,进一步评估了 MB-ST 的实时处理能力。实验结果显示:
平均单样本推理延迟:3.62 ms
对应处理频率:276.47 Hz
这一速度超过常见 EEG 采样率 250 Hz,说明 MB-ST 在计算效率上具备实时 EEG 解码潜力。换句话说,该模型不仅能“解码”,也具备进一步走向在线脑机接口系统的可能性。

图 7 | MB-ST 实时处理性能:模型具有较低推理延迟和较高处理频率。
09 它真的学到了脑电规律,还是只是在“碰运气”?
深度学习模型在脑科学任务中经常面临一个问题:模型效果不错,但它到底学到了什么?为了回答这个问题,研究人员从多个角度进行了可解释性分析。
首先,可视化了模型中可学习频带滤波器的参数变化。结果发现,随着训练进行,滤波器参数逐渐收敛并形成稳定分布,说明模型确实学习到了与视觉解码相关的频域模式。
其次,观察了 EEG 信号经过频带滤波前后的变化。结果显示,经过可学习滤波处理后,原始信号在频谱结构上呈现出更丰富的特征,说明模型能够发现传统时域观察中难以直接捕捉的潜在信息。

图 8 | beta 频段滤波器参数随训练逐渐稳定,说明模型学习到了稳定的频域表示。

图 9 | EEG 信号经过 FB Module 前后的时域与频域变化,显示可学习滤波器对潜在频域特征的增强作用。
10 Grad-CAM 显示:模型关注到了与视觉加工相关的脑区
为了进一步观察模型在空间维度上关注了哪些脑区,研究人员采用 Grad-CAM 进行了可视化分析。
结果显示,原始 EEG 输入的关注区域相对分散;经过 FB Module 后,模型对部分频域相关脑区的响应更加清晰;进一步结合 ST Block 后,模型关注区域扩展到额叶、顶叶、颞叶和枕叶等区域,呈现出更加结构化的空间模式。
这与视觉加工中的脑区协同机制具有一定一致性:枕叶区域与低级视觉加工密切相关;颞叶区域与物体识别和语义加工有关;顶叶区域可能参与空间注意与视觉整合;额叶区域则可能与注意调控和高级认知过程相关。
因此,MB-ST 不仅在性能上有效,其学习到的特征也具有一定神经生理可解释性。

图 10 | Grad-CAM 可视化结果显示,MB-ST 逐步形成更加结构化、具有生理意义的脑区关注模式。
11 从“识别类别”到“理解语义”:EEG 特征也能形成语义聚类
更有意思的是,研究人员还分析了 EEG 特征与图像语义之间的关系。
在零样本解码结果中,模型不仅能够预测正确图像,还能在语义相近的候选图像中给出合理排序。例如,当目标图像与其他候选图像在视觉或语义上比较接近时,模型可能无法始终把正确结果排在 Top-1,但通常仍能把它放入 Top-5 候选范围。
这说明,MB-ST 学到的 EEG 表征并不是完全随机的分类信号,而是包含一定视觉语义结构。进一步的聚类分析也显示,原始 EEG 特征往往较为分散;而经过 MB-ST 编码后的 EEG 特征在语义空间中呈现出更清晰的类内聚集现象,更接近图像嵌入的分布结构。

图 11 | MB-ST 的 Top-1 至 Top-5 预测结果显示,模型能够捕捉 EEG 与图像语义之间的对应关系。

图 12 | UMAP 聚类结果显示,经过 MB-ST 编码后的 EEG 特征呈现出更清晰的语义聚集结构。
12 同一幅图像,为什么不同人的大脑可能给出不同答案?
研究中还有一个很有意思的发现:对于语义较明确的图像,例如猎豹、大象、秋葵和洋葱,不同被试的 EEG 特征通常表现出较为一致的聚类结果。
但对于含义更加抽象,或者容易引发多种联想的图像,不同被试可能表现出不同的语义理解方式。
生活化联想
想象一下,几个人同时看到一张保温杯的照片。有人首先想到的是“杯子”,会把它归入日常容器;有人想到的是办公室,会把它与电脑、笔记本和工位联系起来;有人经常健身,看到的可能是运动装备;还有人经常旅行,第一反应则可能是通勤、露营或户外生活。图片本身没有发生变化,但每个人调用的经验、场景和语义关系可能并不完全相同。
类似地,在分析中,对于语义相对清晰的图像,不同被试往往表现出更一致的脑电特征聚类;而对于更容易产生多重解释的图像,不同人的 EEG 表征可能呈现出不同的语义组织方式。
需要强调的是,这并不意味着模型已经能够准确读取每个人脑海中的具体想法。但它提示我们:EEG 视觉解码不仅可以尝试回答“被试看到了什么”,还可能帮助我们进一步探索“不同人的大脑如何理解同一幅图像”。

图 13 | 对于语义较明确的图像,不同被试表现出相对一致的聚类结果;对于更容易产生多重解释的图像,不同被试可能形成不同的语义关联。
13 这项研究意味着什么?
这项研究并不是要宣称“机器已经可以完全读取人脑画面”。事实上,当前 EEG 视觉解码仍然面临很多挑战,例如数据规模有限、个体差异明显、复杂动态视觉刺激解码困难,以及从分类走向高质量图像重建仍有较长距离。
但它证明了一件重要的事情:通过合适的神经网络结构和跨模态对齐方法,EEG 信号中确实包含可以被模型捕捉和利用的视觉语义信息。
MB-ST 的意义在于,它将 EEG 的频域特征、时空动态特征和图像语义空间有效结合起来,使 EEG 视觉解码在三个方面向前推进了一步:
·性能更强:在 THINGS-EEG 的 200 类零样本图像分类任务中取得领先表现。
·效率更高:平均单样本推理延迟仅为 3.62 ms,具备实时 EEG 解码潜力。
·更可解释:通过滤波器可视化、Grad-CAM 和语义聚类分析,展示了模型学习到的频域、脑区和语义结构。
未来,这类技术有望进一步拓展到脑机接口中的视觉辅助交互、面向认知状态理解的神经解码、基于脑信号的图像或视频重建,以及更加自然、实时和智能的人机交互系统。
结 语
从“看到图像”到“解码大脑对图像的反应”,这中间隔着复杂的神经机制、微弱的脑电信号和艰难的跨模态建模问题。
该项研究尝试向这个方向迈出一步:让模型不仅看到图像,也学会理解大脑如何响应图像。
脑机接口的未来,也许并不是简单地让机器替代人类思考,而是让机器更好地理解人类大脑中的感知、认知与意图。这正是 EEG 视觉解码研究最令人期待的地方。
原文链接:
https://www.sciencedirect.com/science/article/pii/S0925231225029819

作者简介:薛志远,四川大学电气工程学院自动化系2022级硕士研究生,现供职华为。徐鹏,电子科技大学教授,博导,研究方向包括脑认知解码,脑机接口等前沿领域。张军鹏,四川大学电气工程学院自动化系副教授,博导,研究方向为人工智能在医学应用,脑机接口等。公众号作者为四川大学电气工程学院自动化系2023级硕士研究生康子胜,他的研究方向为脑机接口等。

脑机接口社区是国内首家脑机接口(BCI)产业服务平台、国内脑机接口新媒体开创者与引领者。主要为企业、科研团队、投资机构和从业者提供以下服务:
宣传报道:图文、短视频、直播形式报道企业动态、技术解读、产品介绍等内容,提升曝光和行业影响力。
资源对接:根据需求匹配资本、供应链、临床机构、渠道方等资源,完成真实对接,促进合作。
成果转化:协助技术团队寻找产业方、投资人及落地场景,推动技术到产品的转化。
活动策划执行:承接线上线下路演、沙龙、论坛等活动的策划与执行。
其他定制需求:包括报告定制、市场调研、人才招聘支持等个性化服务。
合作洽谈,请联系微信:ZuoLeiLeiya
(备注:姓名-单位-合作)
投稿丨成为创作者,请联系微信:RoseBCI

🌟星标置顶🌟
不错过每一条脑机前沿进展

一键三连「分享」、「点赞」和「在看」
欢迎在评论区聊聊