
一个越来越现实的问题是:当 EEG 基础模型在睡眠分期、癫痫检测、抑郁识别或压力检测中取得高分时,研究人员究竟能否说清它到底“看懂”了什么?如果模型只像一个分数很高但无法解释依据的黑箱,那么它距离真正进入临床脑机接口和长期脑健康监测场景仍有距离。
来自上海人工智能实验室、上海交通大学、同济大学、复旦大学和休斯顿大学的研究团队围绕这一问题展开系统研究。作者没有再提出一个新的 EEG 分类器,而是对现有 EEG foundation models 做了一次知识审计:模型是否学到了人类已知的脑电特征,是否真正使用这些特征进行分类,以及这些特征能解释多少模型性能。

研究结果显示,EEG 基础模型大规模编码并使用了传统脑电特征,但在部分复杂任务中仍留下现有特征词典无法解释的残差。
高分模型为何仍让人不放心
EEG 是脑机接口中最常用的非侵入式脑信号之一。它既有时间维度,也有通道维度;既包含 δ、θ、α、β、γ 等频率节律,也包含跨通道同步、复杂度变化和跨频耦合等结构。因此,在 BCI 解码和临床 EEG 分析中,研究人员长期依赖一套可解释的手工特征体系,例如频带功率、Hjorth 参数、谱熵、样本熵、相干性和相位滞后指数等。
近几年,EEG foundation models 开始改变这一范式。这类模型通常在大规模无标注 EEG 数据上预训练,再迁移到睡眠分期、癫痫检测、精神状态识别等下游任务。它们不需要显式输入传统特征词典,却能在多个任务中获得较强表现。
问题在于,性能提升并不自动带来可信解释。对于脑机接口系统而言,模型不仅要“能分类”,还要能够被验证、被追踪、被改进。如果研究人员不知道模型依赖的是经典脑电特征,还是某些尚未被命名的潜在结构,那么模型在跨人群、跨设备和临床辅助决策中的可靠性就很难被充分评估。
给基础模型做一次三问审计
为回答上述问题,研究团队将审计对象设定为 3 个 EEG foundation models:CSBrain、CBraMod 和 LaBraM;下游任务覆盖 5 个临床 EEG 分类场景:MDD 抑郁识别、Stress 压力检测、ISRUC-Sleep 睡眠分期、TUSL 癫痫分型和 Siena 癫痫检测;特征词典则包含 6 大家族、63 个手工 EEG 特征。由此形成 3 × 5 × 63 = 945 个“模型—任务—特征”审计单元。
整个流程可以概括为三问。第一问,模型是否学到了某个特征?作者使用逐层 ridge probing 从模型隐藏表示中预测手工特征。第二问,模型是否真正使用该特征?作者在特征编码最强的层上进行 LEACE-style cross-covariance subspace erasure,擦除目标特征相关子空间,再观察下游性能是否下降。第三问,这些被确认使用的特征能解释多少性能?作者用这些特征训练透明 logistic regression 分类器,并与同维度随机特征基线和原始基础模型进行比较。

图1 论文整体审计框架:Probe 判断是否编码,Erase 判断是否使用,Closure 判断可解释特征能恢复多少模型性能。
结果分析:数字会说话
首先,模型确实广泛学到了人类脑电知识。在 945 个审计单元中,有 847 个通过编码标准,占比 89.6%;63 个手工 EEG 特征全部至少在一个模型—任务组合中被编码。这说明 EEG 基础模型虽然没有被显式灌入特征词典,却能够从原始信号中重新恢复出大量经典脑电结构。

图2 Probing 结果:不同模型、任务和特征家族在网络深度上的可读性强度。
但“读得出来”并不等于“真的用上”。进一步的擦除实验显示,945 个审计单元中有 648 个(68.6%)是 representation-causal,即擦除对应特征后模型性能显著下降;另有 199 个(21.1%)属于 encoded-only,即这些特征存在于表示中,却没有实质参与当前分类决策。
这一结果提醒研究人员:仅凭 probing 很容易把“模型知道什么”误读为“模型依赖什么”,脑机接口模型的可解释性分析需要进一步检验因果使用关系。

图3 浅色表示模型可编码的特征,深色表示通过擦除检验后被确认用于分类的特征。
从特征家族看,频域特征贡献最强,这与传统 EEG 研究中频带功率和频谱形状的重要性一致。不过,时间域形态、时频包络、信号复杂度、跨频耦合和跨通道关系同样在多个任务中贡献了可观的 causal mass。这意味着 EEG 基础模型并不是只盯着频带功率,而是在利用一个多尺度、多通道、多家族的脑电特征组合。

图4 特征家族层面的总结:频域特征领先,但其他特征家族也提供了重要的因果贡献。
更关键的是 Closure 分析。研究人员将每个模型—任务单元中确认被使用的特征拿出来,训练透明分类器,并计算这些特征能够恢复多少基础模型相对随机特征基线的优势。结果显示,确认特征平均恢复了 79.3% 的基础模型优势。MDD 和 Sleep 等任务几乎可以被现有特征词典解释,而 TUSL 和 Stress 等更复杂任务仍保留明显残差。
这些残差并不只是“解释失败”。相反,它们可能指向现有 EEG 特征词典尚未覆盖的信号结构,也可能反映非线性组合、跨时间尺度动态或任务特异性神经模式。对于 BCI 研究而言,这为后续发现新的可解释脑电概念提供了更具体的搜索方向。

表1 Closure 分析结果:确认被使用的特征平均恢复 79.3% 的基础模型优势。
从“能分类”走向“说得清”
总体来看,该研究为 EEG 基础模型提供了一套系统的知识审计范式。它不是只看模型最终得分,而是把模型内部表示与人类长期积累的 EEG 特征词典逐项对齐,进而区分模型学到的知识、真正用于决策的知识,以及仍未被现有词典解释的知识。
对脑机接口领域来说,这一点具有直接启发意义。未来的 EEG 模型如果要进入长期佩戴、临床辅助、康复训练或真实交互场景,就不能只依赖“排行榜式”的性能提升。研究人员还需要知道模型使用的信号依据是否符合神经生理学常识,是否能够跨任务复现,是否能在出现错误时被定位和修正。
这项工作提示,脑机接口模型的下一步不只是更大、更准,也应当更透明、更可审计。
当基础模型与经典 EEG 特征高度重叠时,这种 overlap 可以增强模型可信度,并为传统脑电知识提供来自机器学习表征的独立验证;当模型优势无法被现有特征解释时,这种 gap 又可能反过来推动新的神经标志物和新的 EEG 分析范式出现。从这个意义上看,EEG 基础模型不只是一个分类工具,也可能成为理解脑电信号本身的新显微镜。
参考:
Tang et al. What Do EEG Foundation Models Capture from Human Brain Signals? arXiv:2605.11410v2, 2026.
论文链接:https://arxiv.org/abs/2605.11410
代码链接:https://github.com/Kian-Chen/BrainPEC

脑机接口社区是国内首家脑机接口(BCI)产业服务平台、国内脑机接口新媒体开创者与引领者。主要为企业、科研团队、投资机构和从业者提供以下服务:
宣传报道:图文、短视频、直播形式报道企业动态、技术解读、产品介绍等内容,提升曝光和行业影响力。
资源对接:根据需求匹配资本、供应链、临床机构、渠道方等资源,完成真实对接,促进合作。
成果转化:协助技术团队寻找产业方、投资人及落地场景,推动技术到产品的转化。
活动策划执行:承接线上线下路演、沙龙、论坛等活动的策划与执行。
其他定制需求:包括报告定制、市场调研、人才招聘支持等个性化服务。
合作洽谈,请联系微信:ZuoLeiLeiya
(备注:姓名-单位-合作)
投稿丨成为创作者,请联系微信:RoseBCI

🌟星标置顶🌟
不错过每一条脑机前沿进展

一键三连「分享」、「点赞」和「在看」
欢迎在评论区聊聊