NeurIPS 2024 | EEG2Video: 从EEG信号中解码动态视觉感知

点击蓝字关注我们

欢迎各位专家学者在公众号平台报道最新研究工作，荐稿请联系小编Robert（微信ID：BrainX007）; 或将稿件发送至lgl010@vip.163.com。

上海交通大学郑伟龙副教授团队在The Thirty-Eighth Annual Conference on Neural Information Processing Systems (NeurIPS 2024，CCF-A)接收题为EEG2Video: Towards Decoding Dynamic Visual Perception from EEG Signals的研究成果。上海交通大学计算机科学与工程系Xuanhao-Liu和Yankai-Liu为共同第一作者，上海交通大学郑伟龙，微软亚洲研究院Yansen-Wang，上海科技大学任侃为共同通讯作者。

Liu X H, Liu Y K, Wang Y, et al. EEG2video: Towards decoding dynamic visual perception from EEG signals[J]. 38th Conference on Neural Information Processing Systems (NeurIPS), 2024, 37: 72245-72273.

成果简介

日常生活中的视觉体验以动态变化为主。从大脑活动解码这种动态信息可以增强对大脑视觉处理系统的理解。然而，以往的研究主要集中在重建静态视觉刺激。在本文中，探索了从脑电图 (EEG) 解码动态视觉感知，这是一种神经成像技术，能够以高时间分辨率 (1000 Hz) 记录大脑活动，以捕获大脑的快速变化。

本文的贡献有三个方面：首先，利用20个被试开发了一个大型数据集记录信号，同时他们观看了有40种观念的1400个动态视频片段。该数据集填补了缺乏 EEG-video的局限性。其次，本文对每个视频片段进行注释，以研究从EEG中解码某些特定元信息（例如颜色、动态、人类等）的潜力。第三，提出了一种新的基线模型 EEG2Video，用于从 EEG 信号中进行视频重建，该信号通过 Seq2Seq 架构更好地将动态运动与高时间分辨率的大脑信号对齐。

EEG2Video 在语义分类任务中达到了 79.8% 的准确率，结构相似度指数 (SSIM) 为 0.256。总体而言，该工作迈出了从脑电信号解码动态视觉感知的重要一步。

主要贡献

本文首次开发了大型EEG数据集SEED-DV，该数据集从20名受试者收集，从40个观念提供1400个EEG-Video，用于研究EEG信号中的动态视觉信息。
SEED-DV标注了每个视频片段的元信息，全面分析EEG中的视觉信息，提出了EEG-VP基准。
在 EEG-VP 基准上评估各种EEG模型，以确定原始 EEG 信号和人类提取特征中不同视觉信息的解码能力。
提出了一个名为 EEG2Video 的新框架，用于从基于Seq2Seq架构的EEG信号中进行视频重建，以密集地利用高度动态的信息。
消融研究展示了Seq2Seq和 DANA 模块在 EEG2Video 中的有效性，这些模块是基于 EEG-VP 基准上不同视觉信息的解码结果设计的。

方法

图1： (A-B) GLMNet 编码器。(C-E) EEG2Video 框架概述。(A) 视觉皮层，基本上位于枕叶。(B) GLMNet 架构，它结合了全局和局部嵌入。(C) EEG2Video的框架，分别使用Seq2Seq模型和预测器预测潜在变量和语义指导。然后使用视频扩散模型生成视频。(D) 基于解码的动态信息的动态感知噪声添加过程。(E) 使用大量视频-文本对来微调膨胀的扩散UNet以生成视频。此外，文本由 BLIP 获得。

本文提出了一种新的高时间分辨率脑解码框架EEG2Video，用于基于Seq2Seq架构的脑电信号视频重建，该体系结构从高时间分辨率的大脑信号中提取连续的低层动态视觉感知，如颜色和位置。在这个框架中，使用 Transformer 架构作为Seq2Seq模型，可以表述为几个块的堆栈，每个块包含一个多头注意力 (MHA) 层和一个前馈网络 (FFN) 层。然后，根据脑电图解码的动态信息，对扩散过程采用动态感知噪声添加(DANA)方法。最后，我们采用膨胀扩散模型，在SEED-DV数据集上进行微调。利用 TuneA-Video 技术来微调膨胀的文本到图像扩散模型，使用EEG预测的语义信息进行视频生成。网络膨胀技巧是在图像生成模型中添加一个稀疏的时间注意层，以确保帧之间的一致性，其中每一帧都用第一帧和之前的帧计算。该方法从高时间分辨率的大脑信号中密集提取视觉信息，从而更好地恢复视频的快速变化。

数据库

图2：40个概念视频片段的元信息和实验协议。(A) 40 个概念的所有视频剪辑的元信息的可视化，展示了每个概念的每个元信息的平均值。(B) 数据收集环境。(C) 演示整个数据收集Session。Session包含 7 个要观看的视频块，每个块之间有至少 30 秒的剩余阶段。(D) 视频块的演示，在同一概念的 5 个不同的视频片段之前有一个 3 秒提示。

本文开发了一个大型EEG数据集，称为DynamicVision (SEED-DV)，该数据集从20名受试者收集，同时他们观看了一系列属于40个不同概念的自然视频片段。此外，为每个视频剪辑注释一些元信息，以全面探索可以从 EEG 信号解码视觉信息的边界，并提供一个基准，其中包含对象识别、颜色/运动感知和人类/人脸检测的各种视觉解码任务。

图3：每个元信息的统计数据：（A）人类外观的比例。(B) 面部外观的比例（仅用人类计算视频）。(C) 不同对象数的分布。(D) 不同对象颜色的分布。(E) OFS的直方图。

结果

表1：不同EEG分类模型在不同任务上对不同受试者的平均分类准确率(%)和STD。Chance 级别是最大识别类别的百分比。星号 (*) 表示结果高于具有统计显着性的预测水平。

图4：空间分析。（A-B）每个电极对人类/动物和快速/慢速任务准确性的地形图。(C)不同大脑区域的消融结果。

表2：不同方法在不同子集大小上的定量结果。标准差是在随机情况下计算的。

图5：重建呈现。可以正确恢复动物、场景、人员和活动中动态低(如山、海滩、脸)和高动态(如滑雪，放烟花，跳舞)的各种视频片段。

研究结论

本文开发了大型数据集SEED-DV用于从EEG信号中重建视频，在此基础上构建了EEG视觉感知分类基准和视频重建基准，以支持评估基于EEG的视频重建的进展。此外，本文提出了一种新的基线模型 EEG2Video，用于从 EEG 信号中进行视频重建，该信号可以根据 Seq2Seq 架构将视觉动态与 EEG 对齐，并通过在 SEED-DV 上训练该框架来呈现生动生成视频的示例。作为第一次尝试，本文为BCI研究人员打开了一种新的可能性，从EEG信号中解码动态视觉感知。但是，个人隐私可能会泄露大脑活动，并被恶意攻击者滥用，在没有确认的情况下可能从EEG信号中阅读一个人的心理活动。因此，应该做出更严格的法规，以保护政府和医疗机构对人民生物数据的隐私安全。

免责声明：原创仅代表原创编译，水平有限，仅供学术交流，如有侵权，请联系删除，文献解读如有疏漏之处，我们深表歉意。

公众号丨智能传感与脑机接口