基于功能磁共振成像(fMRI)的音乐生成框架概述 ©Sci Rep
音乐作为人类重要的感官体验,不仅能调动情绪、唤醒记忆,更在临床应用中展现出巨大潜力——脑机音乐接口(BCMI)有望为运动障碍患者提供个性化沟通方式,而音乐认知任务也被证实可提升思维灵活性与创造力。然而,从脑活动中解码音乐长期面临多重挑战:fMRI的时间分辨率较低(本研究中重复时间为1.5秒),难以捕捉音乐中快速变化的节奏与瞬时特征,且不同个体的脑结构与功能差异、缺乏通用的跨模态映射方法等问题,严重制约了解码精度与泛化能力。此前相关研究要么依赖手工标注的文本描述,要么局限于单一被试,难以实现广泛应用。
近日,来自意大利罗马第二大学和美国麻省总医院的研究团队开发出一种全新数据驱动框架,首次实现通过功能磁共振成像(fMRI)数据精准重建音乐感知,跨被试平均识别准确率高达91.4%,且人类听众能在85.7%的测试中从重建音频中识别出原始音乐,为脑机接口技术与认知神经科学的交叉领域树立了新里程碑。
所提出的处理流程由三个阶段组成:GTZAN功能磁共振成像实验、CLAP体素级编码、MusicLDM解码器。©Sci Rep
研究团队构建了一套融合多学科技术的三阶段框架。该框架首先让5名被试聆听10种不同风格的音乐(涵盖古典、蓝调、嘻哈、金属等),同时通过fMRI记录脑活动数据——所采用的GTZAN-fMRI公开数据集包含540组音乐-脑活动配对,为模型训练提供了坚实基础。在编码阶段,研究利用CLAP多模态模型提取音乐的音频特征与文本特征,并通过线性投影建立跨模态桥梁,无需手工制作字幕即可保留音乐的固有结构;同时通过体素级岭回归模型,筛选出3043个对音乐敏感的脑区,这些区域主要分布在双侧颞叶、额下回及前运动皮层,与已知的听觉处理、音乐语法分析神经机制高度吻合,验证了模型的科学性。
音乐响应体素的空间分布及预测能力。©Sci Rep
解码阶段研究团队引入跨被试功能对齐技术,通过线性映射将不同个体的脑活动投射到共享表征空间,有效克服了个体差异带来的泛化难题;同时摒弃传统文本依赖,直接将脑活动映射到CLAP模型的音频-文本对齐潜空间,并结合MusicLDM扩散生成模型,以贝叶斯最大后验概率推理为核心,从生成先验中筛选出与脑活动最匹配的音频候选,既保证了声学合理性,又增强了神经一致性。与SoundStream、MuLan等传统方法相比,该框架凭借独特的跨模态对齐与概率采样策略,解码准确率显著提升,95%置信区间达[0.887, 0.939],统计检验证实其性能显著优于现有最佳基线。
研究结果显示,不同音乐类型的解码表现存在差异:古典音乐和爵士乐的重建精度最高(人类识别率分别达96.3%和91.7%),这得益于其清晰的和声进展与旋律一致性;而嘻哈、舞曲等节奏复杂的类型表现稍弱,主要受限于fMRI对快速节奏特征的捕捉能力。余弦相似度分析还发现,摇滚、雷鬼与蓝调在潜空间中呈现出较高关联性,暗示这些风格共享的节奏结构与音色特征会激活重叠的神经群体,与人类对音乐类型的感知行为高度一致。
该研究的应用前景十分广阔。跨被试泛化能力的突破为脑机接口技术提供了新可能,未来有望为闭锁综合征、重度神经退行性疾病患者构建非语言沟通渠道——通过解码脑内的音乐感知,实现“意念作曲”或个性化听觉反馈。在临床领域,该框架可作为音乐疗法的客观评估工具,精准量化患者的神经响应;在基础科研层面,其识别出的音乐响应脑区进一步验证了“颞叶负责声学分析、额下回处理音乐结构”的层级感知理论,为探索音乐认知的神经机制提供了全新视角。
研究团队同时指出,当前框架仍存在一定局限:fMRI的时间分辨率难以捕捉微节奏、切分音等精细特征,重建结果更侧重音乐的音色与风格特征而非瞬时动态。未来将结合颅内脑电图(iEEG)等更高时间分辨率的模态,并拓展至不同音乐熟练度、不同文化背景的被试群体,进一步提升解码精度与泛化能力。
该研究使用的GTZAN-fMRI数据集已公开,代码实现也已上传至GitHub仓库供全球研究者参考(可在文末DOI原文中获取)。研究人员表示,这项工作搭建了生成式AI与认知神经科学的桥梁,不仅实现了从脑活动到音乐的精准映射,更为下一代神经解码技术的发展奠定了基础。未来将通过技术迭代,让脑机接口更好地服务于人类健康与创造力表达。
标题:Reconstructing music perception from brain activity using a prior guided diffusion model
DOI:https://doi.org/10.1038/s41598-025-26095-w
本文资讯内容、图片来自网络及论文,首图和播客由AI生成,详情可参考文末链接,如有侵权请告知删除。