PR | 电子科技大学陈华富教授团队利用大语言模型解码大脑视觉感知中语言信息

近日,电子科技大学生命科学与技术学院陈华富院长团队在模式识别领域权威期刊《Pattern Recognition》发表了大脑任务激活模式预测研究成果。青年教师黄伟与硕士生杨鹏飞为该论文共同第一作者,陈华富教授为通讯作者,电子科技大学为第一单位。Pattern Recognition是中科院计算机科学与人工智能大类一区Top期刊,2024年影响因子为7.6。

大脑任务激活模式反映了个体在执行特定认知任务时的神经活动特征,这些模式与个体的认知能力和行为表现密切相关。然而,传统的任务态功能磁共振成像(tfMRI)数据采集需要被试在扫描过程中执行特定任务,这对于某些特殊人群(如神经发育障碍患者或行动不便者)来说具有较大挑战。为解决这一问题,本研究提出了一种基于提示引导的双通道注意力模型(PG-DCAM),该模型能够仅使用静息态功能磁共振成像(rsfMRI)和结构磁共振成像(sMRI)数据,准确预测个体在不同认知任务下的大脑激活模式,如图1所示。PG-DCAM模型由三个核心模块组成:

(A)特征提取模块,用于从静息态功能和结构脑成像数据中提取多模态特征;

(B)双通道注意力网络,包含局部注意力通道和全局注意力通道,分别捕获大脑的局部连接模式和全局网络特征;

(C)提示引导模块,通过引入任务相关的文本提示信息,增强模型对不同认知任务的适应能力。

此外,为了有效解决多任务学习中的任务区分问题,研究团队还提出了一种新颖的分类对比学习策略(CC-loss),显著提升了模型的训练效率和预测准确性。

PR | 电子科技大学陈华富教授团队利用大语言模型解码大脑视觉感知中语言信息图2

图1. PG-DCAM模型整体框架图

本研究在人类连接组计划(HCP)数据集上进行了广泛验证,该数据集包含958名健康成年人的脑成像数据,涵盖工作记忆(WM)、赌博(GAM)、运动(MOT)、语言(LANG)、社会认知(SOC)、关系处理(RELA)和情绪(EMO)七个任务领域共46个认知任务对比。实验结果表明,PG-DCAM在所有任务领域均取得了最优性能,平均Pearson相关系数(PCC)达到0.649,决定系数(R²)达到0.391,相比现有最佳方法分别提升了4.5%和5.4%。

表1. 不同模型在七个任务领域的预测性能比较 PR | 电子科技大学陈华富教授团队利用大语言模型解码大脑视觉感知中语言信息图3

为了进一步验证模型性能,研究团队进行了定性和定量评估。图2(a)展示了一名随机选择的被试(Subject-200614)在"语言:数学-故事"任务对比下的大脑激活模式预测结果。可以看出,本研究提出的模型预测的激活区域与真实激活模式的重叠度最高。图2(b)通过Dice系数分析进一步证实,在不同阈值水平下,PG-DCAM模型在三个任务对比("语言:数学-故事"、"赌博:奖励"和"工作记忆:2back")上均表现出更高的预测精度。除了预测精度,个体识别准确率是评估模型是否能够捕捉个体差异的重要指标。表2展示了不同模型在七个任务领域的个体识别准确率。结果显示,PG-DCAM在所有任务领域均达到85%以上的识别准确率,其中在语言(LANG)、社会认知(SOC)、情绪(EMO)和赌博(GAM)四个领域达到了100%的完美识别率。这表明模型能够准确识别不同被试在执行相同任务时的大脑激活模式差异,充分验证了其捕获个体特异性神经表征的能力。

PR | 电子科技大学陈华富教授团队利用大语言模型解码大脑视觉感知中语言信息图4

图2. 定性比较和Dice系数分析

表2. 不同模型在七个任务领域的个体识别准确率

PR | 电子科技大学陈华富教授团队利用大语言模型解码大脑视觉感知中语言信息图5

为了深入理解模型的工作机制,研究团队进行了系统的消融实验。首先,关于输入模态的分析(表3)显示,同时使用结构和功能数据(S+F)比单独使用任一模态都能获得更好的预测性能,在PCC指标上相比单模态提升约4.8%。这表明结构和功能脑成像数据包含互补的信息,联合使用能够更全面地刻画大脑的神经基础。其次,提示引导模块的有效性分析(表4)表明,引入任务相关的文本提示信息后,模型在PCC和R²指标上分别提升了1.7%和8.1%。特别是在R²指标上的显著提升说明,提示引导模块成功缓解了多模态特征融合可能带来的负面效应,使模型能够更好地整合来自不同模态的信息,提高对输入数据语义关联的理解能力。最后,分类对比损失的作用分析(表5)显示,采用CC-loss训练策略后,模型在PCC和R²指标上分别提升了0.46%和4.3%。更重要的是,通过引入任务间差异指数(ITDI)评估指标(图3),研究发现CC-loss策略显著降低了ITDI值,使预测结果更接近真实数据的任务间差异模式。这表明该训练策略有效增强了模型在多任务场景下的表征学习能力,提高了对不同任务对比的区分度。

表3. 输入模态的消融实验结果

PR | 电子科技大学陈华富教授团队利用大语言模型解码大脑视觉感知中语言信息图6

表4. 提示引导模块的消融实验结果

PR | 电子科技大学陈华富教授团队利用大语言模型解码大脑视觉感知中语言信息图7

表5. 分类对比损失的消融实验结果

PR | 电子科技大学陈华富教授团队利用大语言模型解码大脑视觉感知中语言信息图8

PR | 电子科技大学陈华富教授团队利用大语言模型解码大脑视觉感知中语言信息图9

图3. 不同模型组合方法的ITDI评估结果

此外,研究团队还分析了大脑不同区域的可预测性。图4展示了大脑皮层每个顶点在所有任务对比下的预测性能。结果显示,枕外侧、中央前回、顶上回和顶下回、楔前叶以及额中回等区域表现出较高的R²分数。这些区域与视觉处理、运动控制、空间感知、注意和记忆等多种功能相关。值得注意的是,模型在视觉皮层表现最佳,这可能是因为七个任务领域中的认知任务频繁涉及视觉线索,导致视觉区域在多个任务对比中一致激活,使模型能够更有效地学习这些区域的激活模式。

PR | 电子科技大学陈华富教授团队利用大语言模型解码大脑视觉感知中语言信息图10

图4. 大脑皮层各顶点在所有任务对比下的预测性能

上述研究成果具有重要的科学意义和应用价值:

(1)方法学创新：提出了首个整合静息态功能和结构脑成像数据预测任务激活模式的深度学习框架,为多模态脑成像数据融合提供了新思路;

(2)临床应用潜力：为无法完成任务态扫描的特殊人群提供了一种非侵入性的脑功能评估方法,有助于神经精神疾病的早期诊断和个性化治疗;

(3)神经科学研究：揭示了大脑内在功能架构与任务诱发活动之间的深层联系,加深了对大脑认知机制的理解;

(4)技术推广价值：所提出的提示引导机制和分类对比学习策略可推广应用于其他多任务预测问题和多模态融合任务。

作者简介

PR | 电子科技大学陈华富教授团队利用大语言模型解码大脑视觉感知中语言信息图11

黄伟，讲师。中国图象图形学会类脑视觉专委会委员、计算视觉专委会委员。针对类脑智能、脑信息编解码、生成式语言模型、多模态模型等领域难题，开展人工智能和脑科学的交叉研究。近年来，在脑科学和人工智能领域Information Fusion (2篇), Pattern Recognition, Neural Networks, International Journal of Neural Systems和Computer Methods and Programs in Biomedicine等期刊发表SCI论文30余篇，以第一或通讯作者(共同)发表SCI论文16篇；授权/受理国家发明专利12项。主持国家级或省部级等科研项目4项，参与国防科技、国自然和省部级项目5项。此外，曾在华为工作两年，获得《算法创新优秀新人奖》、《算法技术攻关奖》、《业务服务优秀奖》等多个奖项；入职电子科技大学后，指导本科生/硕士生获得2024/2025年生物医学工程竞赛国家级/省级/校级12项。

PR | 电子科技大学陈华富教授团队利用大语言模型解码大脑视觉感知中语言信息图12

杨鹏飞，2022级硕士研究生，本科毕业于陆军军医大学（第三军医科大学），硕士毕业于电子科技大学生物医学工程专业。研究方向是大脑信息编码。近年来，对大脑编码较为系统的研究，已经以共同一作/参与在Pattern Recognition等期刊发表4篇SCI论文，以及受理4项国家发明专利成果。

PR | 电子科技大学陈华富教授团队利用大语言模型解码大脑视觉感知中语言信息图13

陈华富，教授，博导。国家杰出青年基金获得者，天府创新领军人才，四川省教书育人名师。致力于磁共振脑影像方向研究，并组建“脑成像与模式识别”研究团队，主要从事磁共振脑影像数据模式识别的人工智能与机器学习方法研究、神经与精神疾病影像机制研究，探测疾病的典型影像学特征，为临床诊断和评估提供影像学依据。主持科技部863、重点研发人工智能2030项目、国家自然基金重点、杰青和面上等科研项目。团队在Science Advances，Nature Communications，PNAS，Information Fusion，Biological Psychiatry，Molecular Psychiatry，Brain，PLoS Biology，Neurology，IEEE Trans MI/BME等期刊发表SCI论文300余篇。获教育部自然科学一等奖1项和教育部科技进步一等奖和二等奖各1项，获四川省科技进步自然科学类一等奖1项。

该论文的第一作者为电子科技大学·生命科学与技术学院青年教师黄伟与硕士杨鹏飞。电子科技大学·生命科学与技术学院陈华富院长为通讯作者，该研究得到了STI 2030-重大项目（2022ZD0208900）、科技部重点项目（2024YFC2510203）国家自然科学基金项目 (62406058, 62333003, 62036003, 82121003, 62276051)、电子科技大学医工结合基金 (ZYGX2021YGLH201)、四川省自然科学基金 (2023NSFSC0640)的资助。