Meta 发布全新三模态大脑AI模型

传统的大脑研究往往要求针对每一项新实验都进行全新的数据采集，这使得神经科学研究变得既耗时又昂贵。Meta 旗下 FAIR 实验室的 AI研究人员旨在通过开发一款能够“预测”而非“直接测量”大脑活动的 AI 模型，从而彻底绕过这一研究瓶颈。

根据相关论文介绍，这款模型被命名为 TRIBE v2。它基于来自 720 名受试者的超过 1000 小时的功能性磁共振成像（fMRI）数据进行了训练。功能性磁共振成像（fMRI）技术通过追踪大脑内的血流变化和氧含量水平，从而间接地测量大脑的活动状态。利用这些数据，TRIBE v2 旨在预测大脑将如何对任何视觉、听觉或语言类刺激做出反应。

多模态数据预处理工作

TRIBE v2 接收三种类型的输入数据：视频、音频和文本。每一类数据在进入主模型之前，都会首先通过一款预训练好的 Meta AI 模型进行处理：其中，文本数据由 Llama 3.2 模型负责处理，音频数据由 Wav2Vec-Bert-2.0 模型处理，而视频数据则由 Video-JEPA-2 模型处理。这些模型能够将原始数据转化为具有丰富语义信息的“嵌入向量”（embeddings），从而捕捉并表征图像中可见的视觉内容、声音中可闻的听觉信息，以及句子中可读的语言含义。

随后，一个Transformer模型将这三种表征整合在一起进行处理，从中捕捉那些跨越不同刺激、任务和个体而普遍存在的模式。最后，一个针对特定个体的层级会将模型的输出转化为一幅包含70,000个体素（即构成fMRI扫描图像的3D像素）的大脑图谱。

RIBE v2 接收视频、音频和文本作为输入，将其输入至三个预训练的 AI 模型中进行处理，并预测大脑活动。下图：某电影片段的实测大脑活动与预测大脑活动对比。| 图片来源：Meta

预测结果的噪声水平低于实际的大脑扫描数据

单个fMRI图像本身就带有固有的噪声。心跳、头部移动以及设备产生的伪影等因素，都会对信号造成干扰和失真。为了弄清大脑在面对特定刺激时通常会做出何种反应，研究人员往往需要对大量的扫描数据进行平均处理。

TRIBE v2通过直接预测经过校正的平均反应，巧妙地规避了这一问题。在测试中，该模型的预测结果与实际的群体平均反应之间呈现出极强的相关性，其相关程度甚至超过了大多数单个受试者的扫描数据本身。在“人类连接组计划”（Human Connectome Project）的数据集上，这一优势表现得尤为显著；该数据集是利用7特斯拉（7 Tesla）的扫描仪采集的，其信号质量远高于标准的3特斯拉设备。针对这一数据集，TRIBE v2的预测结果与群体平均反应的相关系数达到了中位个体受试者相关系数的两倍之高。

TRIBE v2 无需重新训练，即可泛化至新的受试者。绿色条形图显示了模型的预测准确率；灰色圆点则展示了单个脑部扫描数据与群体平均水平的相关程度。进行简短的微调（底部）可进一步提升准确率。| 图片来源：Meta

据相关论文所述，与经过优化的线性模型（即此前此类预测任务的主流方法）相比，TRIBE v2在所有测试数据集上均展现出了显著的性能提升。该模型的早期版本——TRIBE v1——仅基于四名受试者的数据进行训练，且仅能预测1,000个而非70,000个体素；即便如此，它依然在“Algonauts 2025”竞赛中脱颖而出，击败了其他263支参赛队伍，一举夺得第一。

TRIBE v2的预测精度随着训练数据量的增加而稳步提升，且目前尚未达到性能瓶颈（即出现“高原效应”）。这一现象预示着，随着fMRI数据库规模的不断扩充，该模型的性能仍将持续精进；这一发展趋势与大型语言模型所遵循的“缩放定律”（scaling laws）如出一辙——即在数据量增加的前提下，模型的性能表现亦能实现可靠且稳健的提升。

TRIBE v2 能够预测皮层及皮层下区域的大脑活动。其预测质量随刺激类型的不同而异，且显著优于线性基线模型。随着训练数据的增加，其准确率呈现稳步提升（右下角）。| 图片来源：Meta

数十年的实验室研究成果成功复现

研究人员利用多种日常刺激（如电影和播客）对 TRIBE v2 进行了测试——在这些情境下，多种感官输入会同时涌入大脑；他们也利用了经典神经科学研究中常用的孤立刺激进行测试。在这些受控实验设置中，屏幕上可能会闪现一幅单张图像并持续一秒钟，以此来测量特定脑区的反应。该团队采用了源自“个体大脑绘图”（Individual Brain Charting）数据集的测试方案——该数据集汇集了一系列公认的经典神经科学实验——并让该模型预测哪些脑区应当被激活。

Meta 发布全新三模态大脑AI模型图6

在视觉实验中，TRIBE v2 识别出了已知专门负责处理面孔、地点、身体和字符的特定脑区。上图：展示的图像。中图：模型的预测结果。下图：实际测得的脑活动。| 图片来源：Meta

在涉及人脸、场景、肢体和文字符号图像的视觉实验中，TRIBE v2 每次都能准确地定位到那些已知的特定功能脑区。在语言实验中，该模型成功定位了语言网络，区分了情绪性疼痛与躯体性疼痛的处理过程，并且如预期所示，在处理完整句子时，左半球的激活程度显著高于处理单纯的词汇列表时。

这些结果与数十年来针对真实受试者进行的实证研究发现高度吻合。对于神经科学领域而言，其启示似乎显而易见：未来的实验在预定昂贵的实验室时间之前，完全可以先在计算机上进行初步的模拟与设计。

绘制感官通道与脑区激活的对应图谱

通过选择性地关闭单个输入通道，TRIBE v2 揭示了每一种感官输入在多大程度上驱动了特定脑区的活动。这些结果与现有的神经科学认知相吻合：听觉输入能最有效地预测听觉皮层附近的脑活动；视觉输入则对应于视觉皮层；而文本输入则会激活语言区以及部分额叶区域。

在那些大脑需要整合多种感官输入的区域，同时输入这三个通道的信息能够带来最大的预测精度提升。在颞叶、顶叶和枕叶的交界处，相比于仅使用任何单一通道进行预测，多通道联合预测的准确率提升幅度高达 50%。

在语言实验中，TRIBE v2 复现了经典的神经语言学发现，例如语音与静默、情感痛苦与生理疼痛、以及句子与词表之间的区分。其预测的激活模式与实测数据相吻合。| 图片来源：Meta

对该模型最后一层神经元的统计分析还揭示出五种特定的模式，这些模式恰好对应于已知的五大功能性脑网络：初级听觉皮层、语言网络、运动识别网络、默认模式网络以及视觉系统。其中，默认模式网络主要在人们进行白日梦、自我反思等活动时被激活。

局限性

TRIBE v2 目前仍存在显著的局限性。首先，功能性磁共振成像（fMRI）只能通过监测血流变化来间接测量大脑活动，且存在数秒钟的时间滞后；因此，那些发生在毫秒级时间尺度上的快速动态神经信号变化依然无法被捕捉。此外，该模型目前仅涵盖了三种感官输入通道——嗅觉、触觉和平衡感官均未被纳入其中。从更根本的层面来看，TRIBE v2 将大脑视为感官输入的被动接收器。它并未对大脑如何主动做出决策或驱动行动进行建模。此外，它也无法捕捉大脑的发育变化或临床病理状况——研究人员表示，这将是未来版本优先解决的重点。

Meta 认为该模型具有三大应用场景：规划神经科学实验、构建更具仿生特质的 AI 架构，以及最终用于脑部疾病的诊断。目前，该模型的代码、权重参数及交互式演示均已向公众开放。

仅用于学术分享，若侵权请留言，即时删侵！