ICML 2026 Spotlight：脑机全能，中科院自动化所提出 Mind-Omni 首个统一多任务脑-视觉-语言建模框架

ICML 2026 Spotlight：脑机全能，中科院自动化所提出 Mind-Omni 首个统一多任务脑-视觉-语言建模框架图1

对外部刺激与内部神经表征之间相互作用的建模，是脑机接口（BCI）领域的核心研究方向之一。现有工作的主要局限在于：普遍采用针对单一任务的"专家模型"范式，既限制了模型的通用性，也忽视了不同任务之间潜在的协同效应。

为解决上述问题，中科院自动化所神经计算与脑机交互团队提出了Mind-Omni——首个在离散扩散范式下统一七项编码与解码任务的通用框架。其核心创新在于一种脑信号分词器（Brain Tokenizer），能够将异质的连续脑信号转化为标准化的离散Token，从而在共享语义空间内实现任意两种或多种模态之间的直接Token级交互与生成。为进一步激活框架的高级推理能力，本研究还构建了一个专门的脑信号问答（BQA）指令微调数据集。Mind-Omni不仅在多任务统一框架中实现了最先进水平，也从实验上观察到了多任务协同效应的存在，另外在部分任务上追平甚至超越了参数规模更大的专用模型，为神经活动的基础模型研究开辟了新范式。

ICML 2026 Spotlight：脑机全能，中科院自动化所提出 Mind-Omni 首个统一多任务脑-视觉-语言建模框架图2

图1：Mind-Omni与专用SOTA模型的整体性能对比（各指标max归一化，1.0=SOTA性能）。Mind-Omni在多任务统一框架中全面领先，并在多个语义与推理任务上媲美乃至超越更大规模专用模型。

本研究的主要贡献如下：

范式突破：提出Mind-Omni，在单一离散扩散架构中首次统一了跨脑信号、图像和文本的七项编解码任务，突破了领域内长期以来专用模型主导的格局。

跨模态融合机制：提出Brain Tokenizer，弥合神经信号与视觉-文本数据之间的模态鸿沟，在共享语义空间内实现直接的Token级交互。

多任务协同增益：实验表明，联合神经建模存在一定的协同效应——Mind-Omni不仅在统一框架中建立了新SOTA，在关键语义与推理任务上还具备与更大规模专用模型竞争的能力。

1. 研究背景与论文简介

认知神经科学与人工智能的交叉领域，近年来因大脑活动的视觉解码与语言解码技术的突破性进展而备受关注。这一领域的核心研究范式——神经编码（Neural Encoding）和神经解码（Neural Decoding）——致力于建立外部视觉/语言刺激与大脑功能性磁共振成像（fMRI）信号之间的双向映射关系。

ICML 2026 Spotlight：脑机全能，中科院自动化所提出 Mind-Omni 首个统一多任务脑-视觉-语言建模框架图3

ICML 2026 Spotlight：脑机全能，中科院自动化所提出 Mind-Omni 首个统一多任务脑-视觉-语言建模框架图4

图2：Mind-Omni与现有专用模型任务能力对比。不同于仅支持单方向或单任务的先前方法，Mind-Omni在单一框架内涵盖全部七项编解码任务。

然而，如图2所示，现有最先进的研究几乎清一色采用专家模型——高度优化的单任务模型，如仅做图像重建或仅做神经编码。这一专业化范式天然限制了模型的通用性，也忽视了不同神经任务之间深层的协同潜力。构建统一的多任务神经编解码模型，不仅是突破现有局限的迫切需求，更是迈向大脑基础模型的关键一步。

这一统一建模目标面临三重核心挑战：

输入异质性：受试者间解剖结构差异导致脑信号维度不一致，现有对齐方法要么难以随受试者规模扩展，要么以牺牲信息保真度为代价。

模态差异：连续脑信号与离散视觉/文本Token之间存在巨大的语义鸿沟，直接的跨模态融合往往效果欠佳。

任务互依性：不同编解码任务之间的关系尚不明晰。专用模型假设任务相互独立，但我们假设共享神经表征可以在相关任务间产生正向迁移——而验证这一假设需要统一架构的支撑。

2. 研究方法

2.1 整体框架

Mind-Omni由两个核心组件构成：一是将三种模态（图像、文本、脑信号）的连续信号离散化的分词器体系；二是在离散扩散范式下统一所有七项任务的生成主干网络。

ICML 2026 Spotlight：脑机全能，中科院自动化所提出 Mind-Omni 首个统一多任务脑-视觉-语言建模框架图5

图3：Mind-Omni训练流程。（a）Brain Tokenizer将连续fMRI信号离散化为Token序列；（b）离散扩散模型在掩码预测目标下统一训练所有七项编解码任务。

对于图像模态，本研究采用预训练的VQ-VAE；对于文本模态，采用CLIP分词器；对于脑信号模态，则训练了一个与共享语义空间对齐的Brain Tokenizer。在此基础上，以Muddit双模态骨干网络为初始化，扩展引入脑信号响应的第三分支，通过离散扩散建模统一所有七项任务的训练与采样过程。

2.2 脑信号分词器（Brain Tokenizer）

Brain Tokenizer是将连续fMRI信号离散化为对扩散模型有意义的Token的核心模块。其架构以VQ-VAE风格的骨干为基础，并引入三重对齐策略，以弥合脑信号与视觉-文本表征之间的模态鸿沟：

粗粒度对齐（Coarse-grained Alignment）：在CLIP-H共享语义空间中进行三模态对比学习，并辅以特征蒸馏损失，将全局fMRI特征拉近至对应的图像和文本CLIP特征。

细粒度对齐（Fine-grained Alignment）：利用CLIP文本编码器的Token级隐状态，通过随机掩码与交叉注意力解码器，在Token粒度上实现fMRI与文本的精细对齐。

感知对齐（Perceptual Alignment）：引入预训练的fMRI预测器，确保重建的fMRI信号在CLIP特征空间中保持语义可解码性，而非仅停留于结构相似性。

消融实验表明：语义对齐损失是最为关键的组件，可将检索性能从随机水平（0.05）大幅提升至0.58，同时大幅度改善自重建精度（rPCC从0.43提升至0.64）；感知对齐损失则进一步提升了码本的多样性与利用率。

2.3 统一离散扩散框架

获得三种模态的离散Token后，Mind-Omni将每项任务统一建模为“条件掩码Token预测”问题。其核心思想在于：通过策略性地定义目标模态集合（T）和条件模态集合（C），单一目标函数即可驱动所有七项任务的训练。

该框架选择离散扩散而非自回归模型的关键原因在于：扩散模型的置换不变性使其对模态生成顺序不敏感，为无偏地观测跨任务协同效应提供了理想的实验平台，避免了自回归模型固定因果结构所引入的混淆偏差。

ICML 2026 Spotlight：脑机全能，中科院自动化所提出 Mind-Omni 首个统一多任务脑-视觉-语言建模框架图6

图4：Mind-Omni推理流程。针对不同任务，通过调整目标模态的初始掩码方式来实现任务切换。在执行图像重建任务时，为了提高生成图像的质量，可以选择性的将解码出的caption和图像输入SDXL或者VersatileDiffusion（d）。

在推理阶段，所有七项任务共享同一迭代去噪流程。具体任务的切换，仅需调整初始Token序列的准备方式——将目标模态初始化为全掩码序列，以条件模态的真值Token为输入即可。

2.4 BQA数据集构建与渐进式训练

BQA数据集基于Qwen2-VL（7B）和LLaVA-Instruct-150K构建，涵盖简洁描述、详细描述和推理问答三类任务，并经过人工筛选（约20人时），过滤掉视觉依据薄弱的问题，确保问答与视觉内容具有强依赖性。

为在多样任务上稳定训练，本研究采用渐进式课程策略：阶段1首先冻结预训练的Muddit骨干，仅训练新引入的脑信号分支参数；随后解冻进行全六项单/双模态任务的联合训练，建立全面的跨模态转换能力。阶段2则借助DoRA微调骨干，并引入BQA数据集以激活高级推理能力。

3. 实验结果

3.1 整体性能评估

如图1所示，本研究在七项神经编解码任务上，将Mind-Omni与MindEye2、MindSimulator等专用SOTA进行了全面评估。结果表明：

Mind-Omni在部分细粒度像素级解码任务与体素级编码任务（如B→I、B→T）上与对应专用模型尚存较大的差距，但这些专用模型各自仅能完成单一任务；

在多任务统一框架的直接对比中（BraVL、MoPoE等），Mind-Omni以更少的可训练参数、单一模型、七项任务的高效配置，全面刷新SOTA；

在粗粒度语义级别的语言解码（详细描述、推理问答）任务上，Mind-Omni在不依赖外部大语言模型的前提下，追平了OneLLM和UMBRAE。

ICML 2026 Spotlight：脑机全能，中科院自动化所提出 Mind-Omni 首个统一多任务脑-视觉-语言建模框架图7

ICML 2026 Spotlight：脑机全能，中科院自动化所提出 Mind-Omni 首个统一多任务脑-视觉-语言建模框架图8

ICML 2026 Spotlight：脑机全能，中科院自动化所提出 Mind-Omni 首个统一多任务脑-视觉-语言建模框架图9

图5：神经解码实验结果。图像重建和语言解码定性结果（上），图像重建定量评估（中），语言解码定量评估（下）。

3.2 视觉重建

在视觉重建任务上，联合解码（B→I&T）相比单独图像解码（B→I）在多项高级指标上取得大幅提升：AlexNet(2)从67.1%提升至72.5%，AlexNet(5)从72.8%提升至84.9%。这一“图文联合解码增益”本身即是多任务协同效应的有力证明。

3.3 语言解码与推理

在语言解码任务上，Mind-Omni支持从脑信号直接生成简洁描述、详细描述和推理问答三类输出，覆盖了从感知到理解的多个层次。如表所示，在详细描述和推理问答任务上，Mind-Omni取得了有竞争力的结果。值得注意的是，UMBRAE和OneLLM均借助了外部大语言模型（分别为Vicuna-13B和LLaMA2-7B）来完成语言输出，而Mind-Omni整个框架基于Muddit-1B，不引入额外的语言模型。在这一约束下仍能取得相近的表现，一定程度上说明联合建模框架有助于从脑信号中提取更丰富的语义信息。

3.4 神经编码

在神经编码（图像/文本→脑信号预测）任务上，Mind-Omni在体素级和语义级指标上均全面超越多任务基线BraVL与MoPoE。联合编码（I&T→B）在所有指标上均优于单模态编码，体现出视觉与语言信息的互补协同效应——这与大脑在视觉感知过程中自发调用语义先验的认知机制高度吻合。

ICML 2026 Spotlight：脑机全能，中科院自动化所提出 Mind-Omni 首个统一多任务脑-视觉-语言建模框架图10

图7：神经编码中的跨模态协同效应。图像-only编码激活早期和高级视觉区域，文本-only编码主要激活语义区域，而联合编码在整个视觉皮层均实现高准确率，呈现"1+1>2"的协同增益。

4. 核心发现

4.1 多任务协同效应

Mind-Omni的实验揭示了两种层面的协同效应：

模态间互补性（编码任务）：联合图像-文本编码（I&T→B）在全部voxel级和语义级指标上均优于任意单模态编码。图7中的皮层激活可视化表明：image-only编码主要激活早期视觉区域和高级视觉区域，text-only编码主要激活语义区域，而联合模型在整个视觉皮层实现高精度预测，反映了大脑对视觉与语义信息的自然整合机制。

任务间协同性（解码任务）：联合解码（B→I&T）相比各自独立的解码任务，在图像重建和文本生成两方面均有所提升，定量结果见上表。图8展示了一个定性案例：单独进行文本解码（B→T）时，生成的描述在语义细节上存在明显缺失；引入图像联合解码后，文本中对颜色、数量等视觉属性的描述有所改善。此处呈现的是从测试集中选取的示例，定量表现已在上表中呈现。

ICML 2026 Spotlight：脑机全能，中科院自动化所提出 Mind-Omni 首个统一多任务脑-视觉-语言建模框架图11

图8：解码协同效应定性示例。联合解码（B→I&T）相比单独文本解码（B→T）在该案例中生成了更准确的描述，可结合上表定量结果一并参考。

4.2 Mind-Omni作为神经科学计算测试台的初步探索

利用训练好的Mind-Omni，我们尝试将其用于神经科学层面的定性分析，初步探索其作为计算测试台的潜力。需要指出的是，模型目前在语义级编码上性能相对较好，但在体素级预测精度上与专用编码模型仍有较大差距。

类别选择性验证：将NSD测试集中的身体、面孔、场景三类图像输入模型，预测的fMRI响应在皮层投影上呈现出与已知功能区（EBA、OFA/FFA、PPA/OPA）大致对应的激活分布，与神经科学领域的既有发现方向一致。这一结果说明模型可能在语义层面捕获了部分视觉皮层的功能组织结构。

新概念皮层表征探索：借助CLIP零样本分类从MSCOCO中筛选概念特定图像，合成对应的预测fMRI响应，所得皮层激活图与MindSimulator的结果在趋势上较为相近。这表明模型对概念级别的语义信息有一定的响应能力，激活模式也呈现出与分布式神经处理理论相符的分布特征。以上均为定性展示，准确度和稳定性有待后续定量研究进一步验证。

ICML 2026 Spotlight：脑机全能，中科院自动化所提出 Mind-Omni 首个统一多任务脑-视觉-语言建模框架图12

图9：皮层激活定性分析。（上）身体、面孔、场景三类刺激的预测激活与已知功能区大致吻合；（下）"冲浪者"等新颖概念的皮层激活趋势与MindSimulator相近。以上均为定性展示，供参考。

4.3 消融实验

论文对Brain Tokenizer的架构设计和整体训练策略分别进行了消融分析，主要结论如下：

Brain Tokenizer架构设计

与自然图像的分词器不同，fMRI信号的内在维度较低，码本容量过大或特征维度过高时容易出现码本坍塌，导致码本利用率极低。语义对齐损失是其中最为关键的组件：引入后，跨模态检索性能从随机水平（0.05）大幅提升至0.58，自重建精度（rPCC）和码本利用率也同步改善。感知对齐损失在此基础上进一步提升了码本的多样性与利用率，对粗粒度和细粒度对齐损失各自贡献的细化分析见论文附录。

训练策略

渐进式课程训练相比直接联合训练效果更好——后者在多任务同时优化时容易出现明显的性能下滑，说明在fMRI数据有限的情况下，先建立稳定的跨模态对齐、再逐步扩展任务范围是必要的。从头训练的效果明显差于以预训练Muddit参数初始化，进一步说明在数据规模受限的神经影像领域，借助已有的视觉-语言预训练知识至关重要。在训练数据方面，使用Qwen2-VL增强的图像描述替代原始COCO标注后，语言解码各项指标均有一致性提升，表明训练文本的质量对最终性能有实质影响。

5. 总结

Mind-Omni首次尝试在单一离散扩散框架内统一七项神经编解码任务，验证了这一路线的可行性。实验表明，统一建模并非简单的任务堆叠，而是能够在任务之间产生实质性的协同效应——联合模态编码对视觉皮层的预测覆盖更全面，联合解码在图像质量和文本质量两方面均有所提升。在语义级编码和语言解码等任务上，模型取得了有竞争力的结果，为后续统一框架的研究提供了一定的参考。同时，模型在体素级预测精度上与专用编码模型仍存在差距，高保真图像重建与专用解码模型相比也有提升空间，这些局限性也不可忽视。

在后续工作中，有几个方向值得进一步探索：一是提升Brain Tokenizer的重建保真度，减少向量量化步骤带来的体素级信息损耗，从而改善神经编码的精细预测能力；二是引入神经生物学上更友好的图像和文本编码器，以同时兼顾编码与解码两侧的性能；三是进一步优化BQA指令数据的质量与规模，提升模型在复杂视觉推理任务上的表现；四是探索更有效的跨受试者泛化方案，降低对大量单被试数据的依赖。

6. 主要作者介绍

ICML 2026 Spotlight：脑机全能，中科院自动化所提出 Mind-Omni 首个统一多任务脑-视觉-语言建模框架图13

第一作者：卢一卓，中国科学院自动化研究所三年级直博生，以第一作者在ICML，ICLR，ACM MM等会议发表论文。个人主页：https://reedonepeck.github.io/Luyizhuo.github.io/

ICML 2026 Spotlight：脑机全能，中科院自动化所提出 Mind-Omni 首个统一多任务脑-视觉-语言建模框架图14

共同第一作者：杜长德，主要从事脑认知与人工智能方面的交叉课题研究，在神经编解码、多模态神经计算、大模型机理解析、脑机融合智能等方面发表了50多篇高水平论文，包括 Nature Machine Intelligence、IEEE TPAMI、ICLR、ICML等。主持国自然面上等项目。曾获得“小米青年学者”、IEEE ICME最佳论文奖（亚军），担任《The Innovation Informatics》青年编委，研究成果被《MIT Technology Review》报道。个人主页：https://changdedu.github.io/

ICML 2026 Spotlight：脑机全能，中科院自动化所提出 Mind-Omni 首个统一多任务脑-视觉-语言建模框架图15

通讯作者：何晖光，中国科学院自动化研究所研究员，博士生导师，国家高层次人才，中国科学院大学岗位教授，上海科技大学特聘教授。先后主持多项国家自然科学基金、863项目、国家重点研发计划课题等多个重要项目。获得国家科技进步二等奖两项（排二、排三），北京市科技进步奖两项，教育部科技进步一等奖等奖项。入选北京市科技新星，中科院“卢嘉锡青年人才奖”，中科院青年创新促进会优秀会员等。其研究领域为脑-机接口、类脑智能、医学影像分析等，在CNS子刊, IEEE TPAMI/TNNLS/TCYB/TMI，ICML,ICLR,MICCAI等发表文章200余篇。自动化学报编委，CCF/CSIG杰出会员。建国七十周年纪念章获得者。

本研究得到国家重点研发计划、国家自然科学基金以及中国科学院战略性先导科技专项的资助。

参考来源：

论文：https://arxiv.org/pdf/2605.29591

代码：https://github.com/ReedOnePeck/Mind-Omni