让AI读懂脑电波：首个融合RVQ与扩散模型的EEG-to-Text框架

点击蓝字关注我们

欢迎各位专家学者在公众号平台报道最新研究工作，荐稿请联系小编Robert（微信ID：BrainX007）；或将稿件发送至lgl010@vip.163.com。

英文标题：DELTA:Language Diffusion-based EEG-to-Text Architecture

原文DOI：

https://doi.org/10.48550/arXiv.2511.21746

成果简介

脑机接口（BCI）技术一直承载着一个重要愿景：让无法说话的人通过“意念”与他人交流。近年来，随着大语言模型（LLM）的兴起，直接从非侵入式脑电图（EEG）信号解码出自然语言文本，成为一个备受关注的研究方向。然而，EEG-to-Text任务面临两个根本性挑战：（1）信号处理层面：EEG信号信噪比极低，个体差异大，直接端到端映射容易“学偏”——有研究甚至发现，把EEG信号换成随机噪声，某些模型的表现反而更好；（2）生成模型层面：主流方法采用自回归（AR）模型，逐词生成文本。这种方式的致命缺陷是“误差累积”——一旦早期预测出错，后续输出会越跑越偏。针对这两大难题，来自韩国MODULABS和成均馆大学的研究团队在NeurIPS 2025上提出了DELTA框架，首次将残差向量量化（RVQ）与语言扩散模型（LLaDA）相结合，为EEG-to-Text任务提供了全新的解决思路。

主要贡献

方法论创新：首次将RVQ tokenizer与扩散语言模型整合到EEG-to-Text任务中，分别应对信号处理和文本生成两个环节的挑战。
范式转变：将传统“EEG→文本”的直接翻译思路，转变为“离散化→复原”的两阶段框架，显著提升了生成过程的稳定性。
性能提升：在ZuCo数据集上，DELTA在词级特征上实现了BLEU-1达到21.93%，ROUGE-1 F1达到17.24%，相比自回归基线模型（BART、T5）分别提升了超过5个百分点。
评估更可信：与许多依赖Teacher-Forcing评估的工作不同，DELTA采用与真实推理场景一致的评估方式，避免了性能虚高的问题。

研究方法

DELTA的整体架构由两个阶段构成：（1）基于RVQ的EEG分词器，将EEG信号转换为离散令牌；（2）基于LLaDA的语言扩散模型，在给定离散令牌的条件下生成文本。这两个模块分阶段训练，最终组合起来从EEG信号生成句子。图1展示了整体结构。

图1.DELTA整体架构。

1）阶段一RVQ EEG Tokenizer(EEG→离散Token)：该阶段的目标是将连续、高噪声的EEG信号转换为鲁棒的离散令牌序列。研究团队首先将105个EEG通道的每个通道分解为8个频带，形成840维的输入张量，然后通过一维卷积编码器压缩为潜在特征表示。接着，采用残差向量量化（RVQ）模块，通过多层码本逐层量化残差——第一层捕获主要特征，后续各层依次量化前一层未覆盖的残差信息，最终将所有层选定的码向量相加作为最终的量化表示。这种分层量化机制能够有效滤除EEG信号中的噪声和个体差异，将不稳定的连续波形转化为稳定、紧凑的离散编码，为后续的文本生成奠定可靠的基础。

2）阶段二LLaDA语言扩散模型(离散Token→文本)：该阶段以阶段一输出的离散EEG令牌为条件，通过语言扩散模型生成自然语言文本。整个过程分为预训练和监督微调两步：预训练阶段仅使用EEG令牌，通过随机掩码部分令牌并训练模型将其恢复原状，使模型学习EEG令牌序列的内在分布和结构；微调阶段则以EEG令牌为条件提示，训练模型从被部分掩码的文本中复原出完整原文。推理时，模型从一个全掩码的文本序列开始，通过多轮迭代去噪逐步并行地填充所有位置，最终形成连贯的句子。这种非自回归、并行修复的生成方式天然免疫误差累积——即使某步预测出错，后续步骤也有机会修正，从而在EEG信号噪声较大的环境下实现更稳定的文本生成。

关键优势：与自回归模型逐词生成不同，扩散模型可以“同时修复整句话”，中间步骤的错误可以在后续被纠正，天然抗误差累积。

研究结果

研究团队在ZuCo 1.0和2.0数据集上进行了实验，包含约2.5万个句子-EEG配对样本。对比基线包括BART、Pegasus和T5（均使用相同的RVQ tokenizer）。如表1所示，本文提出的DELTA模型表现出优越的性能。

表1. ImageNet-EEG基准

在句子级特征上，DELTA在BLEU和ROUGE分数上显著优于自回归模型（例如，BLEU-1为14.82%，ROUGE-1 F1为7.26%），证明了其在恢复全局上下文方面的有效性。然而，其WER较高（139.71%），因为句子级聚合破坏了对该指标至关重要的词序信息。

在词级特征上，所有模型都有所提升，但DELTA的领先优势进一步扩大。它在BLEU-1（21.93%）和ROUGE-1 F1（17.24%）上分别超过次优模型T5和BART超过5个百分点。尽管在BLEU-4上略为落后，DELTA的整体性能证实了其强大的语义恢复能力。

案例研究

对生成示例的深入观察揭示了两个关键行为。首先，成功的生成可以与真实文本几乎完全相同，准确捕捉复杂的结构。更值得注意的是，即使在语义失败的情况下，模型仍然保留了原始句子的句法框架。例如，一个预测错误地改变了句子的主语，但保留了其核心语法结构（例如"（姓名）（日期）是（职业）。"）。这表明，即使在解码正确的语义内容失败时，本文的模型也能有效地学习句法。

研究结论

本研究提出了 DELTA 框架，该框架将基于 RVQ 的 EEG 分词器与 LLaDA 相结合，能够将连续的脑电图信号转换为离散令牌且信息损失最小，并通过非序列式的扩散过程生成富含上下文的文本。与现有的基于自回归的方法相比，DELTA 在 BLEU 和 ROUGE 等关键指标上取得了更优越的性能。这些结果表明，语言扩散模型是面向脑信号的自然语言生成领域一个极具前景的替代方案。未来，计划通过大规模预训练来扩展模型的通用性，并整合其他脑信号（如 MEG）及多模态输入，以进一步提升非侵入式脑-语言接口的准确性和适用性。

免责声明：原创仅代表原创编译，水平有限，仅供学术交流，如有侵权，请联系删除，文献解读如有疏漏之处，我们深表歉意。

公众号丨智能传感与脑机接口