清华大学领衔！NOBEL：首个全模态大脑解码基础模型

清华大学领衔！NOBEL：首个全模态大脑解码基础模型图1

长期以来，非侵入式脑机接口领域面临着一个尴尬的困局：脑电图（EEG）和脑磁图（MEG）速度极快，能捕捉毫秒级的反应，但定位模糊；功能磁共振成像（fMRI）空间解析度极高，能看清大脑活跃的具体位置，但反应却慢了半拍。

虽然这些信号都源自同一个大脑，但因为数据特征差异太大，研究者往往只能“各扫门前雪”，缺乏一个能同时解析这些异构信号的模型。

近日，清华大学张超教授团队联合上海AI实验室、上海科技大学等机构，在arXiv上提交了一项突破性成果——NOBEL。这是一种神经全模态脑编码大语言模型（LLM），能够在该 LLM 的语义嵌入空间内统一这些异质信号。

大模型架构

NOBEL 是一种统一的基础模型，旨在同一共享语义空间内，对涵盖从低频 fMRI 活动到高频 EEG 和 MEG 信号在内的全模态非侵入式脑信号进行解码。如下图所示，该框架充当着一种通用解释器：它能够接收 fMRI、EEG、MEG 及外部刺激的灵活组合输入，并依据用户提供的文本提示进行调控，进而生成自然语言响应。为了兼顾信号的精细粒度与任务的灵活性，fMRI 信号在处理时被保留为原始的 4D 体素数据以及 GLM Beta 权重。

NOBEL 架构概览。该模型将异质性脑信号与外部刺激整合至大型语言模型（LLM）之中；其特色在于采用了双路径 fMRI 编码器，用于解耦代谢特征（区分原始体素与 Beta 权重），并配备了统一的 EEG/MEG 编码器，用于捕捉电磁动态信息。所有脑模态数据均通过各自特定的三层 MLP 对齐模块，投射至 LLM 的输入空间中。该系统支持灵活的输入组合，并利用 LoRA 技术进行了优化，以提升其在指令遵循任务上的表现。

实验方法

数据集。研究人员使用的数据集集合涵盖了单模态临床数据集、开创性的配对式 EEG/MEG-fMRI 数据集，以及复杂的基于刺激感知的语义解码数据集。

另外，采用平衡准确率（BAcc）来评估 EEG/MEG 分类任务，而主要采用准确率（Acc）来评估其他分类任务，使用平均绝对误差（MAE）来评估 HCP 刺激幅度回归任务，并使用 Rouge-L 分数来评估 NSD 图像描述任务。

表1.所用数据集概述

表2.针对 EEG 和 MEG 任务，展示了我们模型及各类专用判别式基线的定量结果。

对于EEG和MEG任务，如表2所示，NOBEL在绝大多数EEG和MEG基准测试中，均持续优于诸如ST-Transformer和SPaRCNet等成熟的判别式基线模型。此外，即使与当前最先进的模型BrainOmni进行对比，NOBEL依然表现出具有竞争力的性能。值得注意的是，在AD65和TUAB数据集上，NOBEL分别取得了81.3%和82.4%的准确率，超越了BrainOmni。这表明我们的生成式框架具有巨大潜力，能够将高频电磁特征与大型语言模型（LLM）所蕴含的丰富语义空间进行有效对齐。

表3.针对基于体素的 fMRI 任务，展示了我们模型及其他 fMRI 编码器基线的定量结果。

在基于体素的fMRI领域，如表3所示，NOBEL同样展现出了稳健且强大的性能。具体而言，在ABIDE-I、Neural Processing和XP1-2数据集上的性别分类任务中，NOBEL分别取得了89.2%、83.6%和78.8%的准确率。这表明该统一框架能够有效地捕捉全局表型特征，其优异表现可能得益于LLM语义空间所提供的正则化效应，从而实现了更好的跨受试者泛化能力。

总结来说，这是一个面向非侵入性脑信号的全模态基础模型。这也是首次在生成式大语言模型（LLM）框架下，将 高时间分辨率的 EEG/MEG 电磁信号 与 高空间分辨率的 fMRI 代谢信号 统一到同一模型体系中进行解码。

在模型架构上，NOBEL通过一个统一的 EEG-MEG 编码器 来处理电磁信号，并针对 fMRI 设计了 双路径编码策略，以更好地捕捉其复杂的时空特征。同时，模型还将外部的视觉或听觉刺激与脑信号一起映射到共享的语义空间，使得大语言模型能够在同一框架中理解来自大脑和外部世界的信息。

值得关注的是，NOBEL在 “刺激感知解码” 任务中表现出强大的潜力。在 NSD 和 HAD 等数据集的多受试者 fMRI 数据上，该模型能够有效解析与视觉刺激相关的语义信息。通过将外部刺激直接作为模型输入，研究人员还进一步探索了 感官刺激与神经响应之间的潜在因果关系。

研究团队认为，这项工作为统一的非侵入性脑解码提供了一种新的技术路径，也为未来构建能够理解多种脑信号的 “全模态大脑基础模型” 奠定了基础。

仅用于学术分享，若侵权请留言，即时删侵！