上海AI Lab等机构联合发布：脑电基础模型黑箱审计，它到底学会并用了什么？图1

一个越来越现实的问题是：当 EEG 基础模型在睡眠分期、癫痫检测、抑郁识别或压力检测中取得高分时，研究人员究竟能否说清它到底“看懂”了什么？如果模型只像一个分数很高但无法解释依据的黑箱，那么它距离真正进入临床脑机接口和长期脑健康监测场景仍有距离。

来自上海人工智能实验室、上海交通大学、同济大学、复旦大学和休斯顿大学的研究团队围绕这一问题展开系统研究。作者没有再提出一个新的 EEG 分类器，而是对现有 EEG foundation models 做了一次知识审计：模型是否学到了人类已知的脑电特征，是否真正使用这些特征进行分类，以及这些特征能解释多少模型性能。

上海AI Lab等机构联合发布：脑电基础模型黑箱审计，它到底学会并用了什么？图2

研究结果显示，EEG 基础模型大规模编码并使用了传统脑电特征，但在部分复杂任务中仍留下现有特征词典无法解释的残差。

高分模型为何仍让人不放心

EEG 是脑机接口中最常用的非侵入式脑信号之一。它既有时间维度，也有通道维度；既包含 δ、θ、α、β、γ 等频率节律，也包含跨通道同步、复杂度变化和跨频耦合等结构。因此，在 BCI 解码和临床 EEG 分析中，研究人员长期依赖一套可解释的手工特征体系，例如频带功率、Hjorth 参数、谱熵、样本熵、相干性和相位滞后指数等。

近几年，EEG foundation models 开始改变这一范式。这类模型通常在大规模无标注 EEG 数据上预训练，再迁移到睡眠分期、癫痫检测、精神状态识别等下游任务。它们不需要显式输入传统特征词典，却能在多个任务中获得较强表现。

问题在于，性能提升并不自动带来可信解释。对于脑机接口系统而言，模型不仅要“能分类”，还要能够被验证、被追踪、被改进。如果研究人员不知道模型依赖的是经典脑电特征，还是某些尚未被命名的潜在结构，那么模型在跨人群、跨设备和临床辅助决策中的可靠性就很难被充分评估。

给基础模型做一次三问审计

为回答上述问题，研究团队将审计对象设定为 3 个 EEG foundation models：CSBrain、CBraMod 和 LaBraM；下游任务覆盖 5 个临床 EEG 分类场景：MDD 抑郁识别、Stress 压力检测、ISRUC-Sleep 睡眠分期、TUSL 癫痫分型和 Siena 癫痫检测；特征词典则包含 6 大家族、63 个手工 EEG 特征。由此形成 3 × 5 × 63 = 945 个“模型—任务—特征”审计单元。

整个流程可以概括为三问。第一问，模型是否学到了某个特征？作者使用逐层 ridge probing 从模型隐藏表示中预测手工特征。第二问，模型是否真正使用该特征？作者在特征编码最强的层上进行 LEACE-style cross-covariance subspace erasure，擦除目标特征相关子空间，再观察下游性能是否下降。第三问，这些被确认使用的特征能解释多少性能？作者用这些特征训练透明 logistic regression 分类器，并与同维度随机特征基线和原始基础模型进行比较。

上海AI Lab等机构联合发布：脑电基础模型黑箱审计，它到底学会并用了什么？图3

图1 论文整体审计框架：Probe 判断是否编码，Erase 判断是否使用，Closure 判断可解释特征能恢复多少模型性能。

结果分析：数字会说话

首先，模型确实广泛学到了人类脑电知识。在 945 个审计单元中，有 847 个通过编码标准，占比 89.6%；63 个手工 EEG 特征全部至少在一个模型—任务组合中被编码。这说明 EEG 基础模型虽然没有被显式灌入特征词典，却能够从原始信号中重新恢复出大量经典脑电结构。

上海AI Lab等机构联合发布：脑电基础模型黑箱审计，它到底学会并用了什么？图4

图2 Probing 结果：不同模型、任务和特征家族在网络深度上的可读性强度。

但“读得出来”并不等于“真的用上”。进一步的擦除实验显示，945 个审计单元中有 648 个（68.6%）是 representation-causal，即擦除对应特征后模型性能显著下降；另有 199 个（21.1%）属于 encoded-only，即这些特征存在于表示中，却没有实质参与当前分类决策。

这一结果提醒研究人员：仅凭 probing 很容易把“模型知道什么”误读为“模型依赖什么”，脑机接口模型的可解释性分析需要进一步检验因果使用关系。

上海AI Lab等机构联合发布：脑电基础模型黑箱审计，它到底学会并用了什么？图5

图3 浅色表示模型可编码的特征，深色表示通过擦除检验后被确认用于分类的特征。

从特征家族看，频域特征贡献最强，这与传统 EEG 研究中频带功率和频谱形状的重要性一致。不过，时间域形态、时频包络、信号复杂度、跨频耦合和跨通道关系同样在多个任务中贡献了可观的 causal mass。这意味着 EEG 基础模型并不是只盯着频带功率，而是在利用一个多尺度、多通道、多家族的脑电特征组合。

上海AI Lab等机构联合发布：脑电基础模型黑箱审计，它到底学会并用了什么？图6

图4 特征家族层面的总结：频域特征领先，但其他特征家族也提供了重要的因果贡献。

更关键的是 Closure 分析。研究人员将每个模型—任务单元中确认被使用的特征拿出来，训练透明分类器，并计算这些特征能够恢复多少基础模型相对随机特征基线的优势。结果显示，确认特征平均恢复了 79.3% 的基础模型优势。MDD 和 Sleep 等任务几乎可以被现有特征词典解释，而 TUSL 和 Stress 等更复杂任务仍保留明显残差。

这些残差并不只是“解释失败”。相反，它们可能指向现有 EEG 特征词典尚未覆盖的信号结构，也可能反映非线性组合、跨时间尺度动态或任务特异性神经模式。对于 BCI 研究而言，这为后续发现新的可解释脑电概念提供了更具体的搜索方向。

上海AI Lab等机构联合发布：脑电基础模型黑箱审计，它到底学会并用了什么？图7

表1 Closure 分析结果：确认被使用的特征平均恢复 79.3% 的基础模型优势。

从“能分类”走向“说得清”

总体来看，该研究为 EEG 基础模型提供了一套系统的知识审计范式。它不是只看模型最终得分，而是把模型内部表示与人类长期积累的 EEG 特征词典逐项对齐，进而区分模型学到的知识、真正用于决策的知识，以及仍未被现有词典解释的知识。

对脑机接口领域来说，这一点具有直接启发意义。未来的 EEG 模型如果要进入长期佩戴、临床辅助、康复训练或真实交互场景，就不能只依赖“排行榜式”的性能提升。研究人员还需要知道模型使用的信号依据是否符合神经生理学常识，是否能够跨任务复现，是否能在出现错误时被定位和修正。

这项工作提示，脑机接口模型的下一步不只是更大、更准，也应当更透明、更可审计。

当基础模型与经典 EEG 特征高度重叠时，这种 overlap 可以增强模型可信度，并为传统脑电知识提供来自机器学习表征的独立验证；当模型优势无法被现有特征解释时，这种 gap 又可能反过来推动新的神经标志物和新的 EEG 分析范式出现。从这个意义上看，EEG 基础模型不只是一个分类工具，也可能成为理解脑电信号本身的新显微镜。

参考：

Tang et al. What Do EEG Foundation Models Capture from Human Brain Signals? arXiv:2605.11410v2, 2026.

论文链接：https://arxiv.org/abs/2605.11410

代码链接：https://github.com/Kian-Chen/BrainPEC