

脑机接口和脑电大模型研究正在快速积累大量 EEG 数据,但真正限制跨数据集研究效率的,可能不是模型本身,而是数据管理:不同数据集采用不同文件格式、通道命名、事件标注和元数据规范,研究者需要反复编写定制脚本,才能把数据整理成可比较、可复用、可训练的形式。
EEGUnity 正是为这一问题设计的开源 Python 工具。根据论文介绍,它面向多来源、多格式 EEG 数据集的统一管理与批量处理,围绕数据解析、标注校正、批处理和大语言模型辅助等模块,帮助研究者把分散的 EEG 数据整理为结构一致、质量可控、便于后续建模的数据资产。

论文图:EEGUnity 面向全球分散 EEG 数据集的统一管理目标。

图 1:从分散数据集到统一接口。
为什么需要 EEGUnity?
在实际研究中,EEG 数据的异质性主要体现在三个层面:一是采集设备、导联配置和实验范式差异带来的数据内容差异;二是通道名、采样率、事件标签等元数据记录方式不一致;三是 EDF、GDF、MAT、CSV、TXT、EEGLAB set 等文件格式并存,导致标准化流程很难直接复用。对于需要整合多个公开数据集的大规模 EEG 模型来说,这些问题会显著增加预处理成本,也会影响后续实验的可重复性和可比较性。
EEGUnity 的思路是把这些分散环节收束到一个统一入口中:研究者可以通过数据集路径、已有 Locator 文件,或多个 UnifiedDataset 对象来管理数据;工具会在统一的数据描述之上执行批量处理,从而降低跨数据集研究中重复、零散、难以追踪的人工整理工作。


图 2:安装、实例化 UnifiedDataset,并执行通用解析与导出流程。
工具的核心设计
论文中,EEGUnity 的核心组件包括 UnifiedDataset 和 Locator。UnifiedDataset 是面向多数据集操作的统一 Python 类,负责提供数据加载、合并、批处理和导出等接口;Locator 则以类似表格的方式记录每个 EEG 文件的关键元数据,例如文件路径、数据集标签、文件类型、通道配置、采样率、数据时长和完整性检查结果。这样的设计使研究者可以在不修改原始数据的前提下,对元数据进行审查、修正和复用。
在功能模块上,EEGUnity 覆盖四类关键能力:EEG Parser 用于解析多种常见与非标准数据格式;Correction 模块用于检查和修正通道、事件、采样率等标注信息,并支持生成数据集报告与可视化诊断;Batch Processing 模块用于批量执行数据清洗、去噪、质量评估、通道对齐、标准化和自定义流程;Large Language Model Boost 模块则用于辅助非标准文件解析、从描述文件中提取通道名和采样率等信息,提高复杂数据集接入时的灵活性。


从数据管理到模型训练
面向大规模 EEG 模型,EEGUnity 不只解决能否读取的问题,也进一步支持能否统一处理的问题。在数据清洗方面,工具可基于完整性检查和质量评分筛选样本,并结合滤波、ICA 等方法进行去噪;在数据统一方面,工具支持保存为统一格式、重采样、通道对齐、单位推断、归一化、事件提取,以及按事件或固定窗口切分 epoch,便于后续训练与评测。
论文在 25 个来自不同来源的 EEG 数据集上展示了典型批处理工作流,说明 EEGUnity 在跨数据集解析、清洗和统一方面具有较好的灵活性。对于脑机接口社区而言,它的价值不只是节省预处理时间,更重要的是为开放数据复用、统一 benchmark 构建和 EEG 基础模型训练提供更可靠的数据工程基础。
由于商业原因,我们无法马上发布所有高质量标注插件。好消息是,今年夏天,我们会发布可能是有史以来最大的EEG Benchmark,在这个benchmark中,我们会有超过10个脑电大模型源码,大量评测分析,以及超过50个数据集的导出方式。届时将在脑机接口社区进行重大发布,敬请期待!

开源信息
GitHub:https://github.com/Baizhige/EEGUnity
Documentation:https://eegunity.readthedocs.io/en/latest/
Paper DOI:https://doi.org/10.1109/TNSRE.2025.3565158
关于工具和后续消息,或者加入Benchmark构建,欢迎联系作者:C.Qin8@liverpool.ac.uk
注:漫画经人工审核由 AI 辅助生成
参考:C. Qin, R. Yang, W. You, Z. Chen, L. Zhu, M. Huang, and Z. Wang, "EEGUnity: Open-Source Tool in Facilitating Unified EEG Datasets Toward Large-Scale EEG Model," IEEE Transactions on Neural Systems and Rehabilitation Engineering, vol. 33, pp. 1653-1663, 2025, doi: 10.1109/TNSRE.2025.3565158.

脑机接口社区是国内首家脑机接口(BCI)产业服务平台、国内脑机接口新媒体开创者与引领者。主要为企业、科研团队、投资机构和从业者提供以下服务:
宣传报道:图文、短视频、直播形式报道企业动态、技术解读、产品介绍等内容,提升曝光和行业影响力。
资源对接:根据需求匹配资本、供应链、临床机构、渠道方等资源,完成真实对接,促进合作。
成果转化:协助技术团队寻找产业方、投资人及落地场景,推动技术到产品的转化。
活动策划执行:承接线上线下路演、沙龙、论坛等活动的策划与执行。
其他定制需求:包括报告定制、市场调研、人才招聘支持等个性化服务。
合作洽谈,请联系微信:ZuoLeiLeiya
(备注:姓名-单位-合作)
投稿丨成为创作者,请联系微信:RoseBCI
🌟星标置顶🌟
不错过每一条脑机前沿进展

一键三连「分享」、「点赞」和「在看」
欢迎在评论区聊聊