
作者: Yuqin Dai*,Zhouheng Yao*,Chunfeng Song,Qihao Zheng,Weijian Mai,Kunyu Peng,Shuai Lu,Wanli Ouyang,Jian Yang†,Jiamin Wu†
机构:Shanghai Artificial Intelligence Laboratory,Nanjing University of Science and Technology,The Chinese University of Hong Kong,Tsinghua University,Karlsruher Institut f ̈ ur Technologie.
论文链接:https://arxiv.org/pdf/2502.05034
一、脑视觉解码的核心困境:个体差异与数据稀缺
你是否好奇,大脑如何将视觉信号转化为具体的图像感知?功能性磁共振成像(fMRI)为 “读脑”提供了窗口,但现有技术面临两大瓶颈:
1.个体大脑差异巨大:不同人的脑结构和认知模式千差万别,同一视觉刺激下的 fMRI 信号可能截然不同。传统方法需为每个人单独训练模型,成本高昂且无法通用。
2.数据采集成本高:fMRI 扫描耗时费力,新受试者通常只有少量数据(如仅 1 小时扫描),难以支撑复杂模型训练。
挑战本质:如何让脑解码模型在样本量有限的情况下,跨越个体差异实现精准视觉解码?
二、MindAligner:从“隐式对齐”到 “显式对齐”的革新
为了解决上述问题,现有方法将不同受试者的 fMRI 信号映射到共享潜在空间以捕捉共同认知模式,采用隐式对齐策略建模跨个体脑差异。但存在两大局限:一是对齐不充分,个体脑差异显著,即使面对相同刺激,fMRI 信号也可能因脑结构和认知模式不同而差异极大,强行对齐到单一潜在空间易导致次优解;二是缺乏功能可解释性,隐式对齐无法明确不同受试者脑区功能的对应关系,难以定位功能共性与差异区域,既限制了跨个体知识迁移效率,也阻碍了对人类感知神经机制的深入分析。此外,传统方法依赖严格配对的同刺激 fMRI 数据,而现实中此类数据稀缺,进一步限制了其适用性。

针对现有方法存在的局限性,上海人工智能实验室联合清华大学,香港中文大学和南京理工大学等多所高校发表的《MindAligner: Explicit Brain Functional Alignment for Cross-Subject Visual Decoding from Limited fMRI Data》,提出了首个跨个体脑功能显式对齐框架,让“读心术” 在有限数据下也能精准实现!

·核心创新 1:脑迁移矩阵(BTM):跨受试者的高效语义转化
本研究设计了一种可学习的 Brain Transfer Matrix(BTM),用于将新受试者的脑信号映射到已有受试者的信号空间。该方法创新性地将新受试者的 fMRI 信号“翻译”为已有受试者的大脑活动模式,显示地在原始脑空间中建立精细的一一对应关系,无需依赖共享的潜在空间,从而避免了转换过程中的语义冲突。此外,这种显式的脑对齐方式在跨受试者的脑区之间构建了fMRI体素级别的对应关系,不仅确保了功能信息在脑功能区域之间的保真传递,还显著增强了模型的可解释性。
·核心创新2:脑功能对齐模块(BFA):没有同刺激样本时的灵活匹配
传统脑解码方法依赖于严格的同刺激数据(例如要求所有受试者观看完全相同的刺激图片),然而在现实场景中,不同受试者往往缺乏同刺激数据。为解决这一问题,MindAligner提出脑功能对齐模块(BFA),作为一种跨受试者的语义转换器,构建语义桥梁,能够在非完全相同但语义相似的刺激间建立脑信号映射关系,从而有效缓解真实场景下的数据对稀疏问题。
·数据效率:相比起传统方法需 40 小时甚至以上的 fMRI 数据量,MindAligner 仅需1 小时 fMRI 数据,且可训练参数仅占整体模型的6%,大幅降低计算成本。
三、性能突破:有限数据下的 “读脑”精度跃升
1.解码精度全面超越基线:

在大规模fMRI数据集 NSD 上,MindAligner 实现多项领先:
-
在图像重建任务均优于 MindEye2、MindBridge 等方法,如:像素相关性(PixCorr)提升至 0.206,Alex 各项指标领先等。
-
脑信号检索准确率提升17.9%,证明其对深层语义的捕捉能力。
2.在脑功能分析中,MindAligner 发现大脑不同区域的个体差异呈现显著特征:

-
MindAligner 的显式对齐策略能进行体素级别的映射,具有可解释性。通过可视化跨受试者功能传输的脑热力图,我们发现跨受试者的基础视觉区域具有更强的共性,而高级认知功能区域具有更大的差异,具体来说:
早期视觉区(如处理线条、颜色的区域):不同人间信号差异小,对基础视觉刺激的反应高度一致。
高级视觉区(如识别人脸、记忆场景的区域):个体间差异大,需专门调整才能对齐,其神经活动模式受个人经验和认知影响较大。
3.跨个体通用性极强:

无论将新受试者对齐到哪一个已知受试者,重建图像的稳定性和语义一致性均保持在较高水平,证明对齐策略的鲁棒性。
四、未来场景:从实验室到真实世界的跨越
MindAligner 的显式脑功能对齐框架不仅突破了跨个体脑解码的技术瓶颈,更在临床应用、脑机交互与基础科学研究中展现出广阔的转化潜力
·脑机接口(BCI):传统 BCI 需为每位用户单独采集数十小时 fMRI 数据并训练专属模型,成本高昂且耗时长。MindAligner 仅需1 小时数据即可实现跨个体模型迁移,显著降低设备部署门槛
·临床诊断:通过跨个体脑信号对比,辅助自闭症、阿尔茨海默病等早期神经疾病筛查;
·跨物种研究:通过显式对齐策略,可将小鼠、猕猴等动物模型的神经信号 “翻译”至人类脑空间,加速神经机制研究。
仅用于学术分享,若侵权请留言,即时删侵!