脑机接口(BCI)作为打通大脑与外部设备的前沿技术,一直受困于脑信号高维度、噪声繁杂带来的数据解析难题,海量采集的脑电数据里混杂大量无效信息,不仅拖慢运算效率,还严重限制设备识别准确率。
近日来自荷兰乌得勒支大学医学中心的科研团队研发出一款名为BCI-sift的Python开源工具箱,专门针对脑机接口研究中的特征筛选痛点开发,依托多类智能优化算法自动筛选有效脑神经信号,实测依托高密度皮层脑电(HD ECoG)数据实现分类准确率跨越式提升,相关研究成果正式对外发布,为全球脑机接口科研人员提供免费易用的标准化分析工具。
这款工具依托开源平台GitHub公开源代码与配套教程,完美适配主流机器学习库scikit-learn,降低了不同领域研究者的上手门槛,打破过往脑电特征筛选算法零散、适配场景单一的行业现状。
BCI-sift工具箱简介
特征筛选整体流程:BCI-sift工具箱以脑机实验脑电数据、标签及用户自定义参数为输入,参数涵盖优化维度、算法、机器学习流程、评价指标与超参。工具迭代选取特征并训练模型,同步留存特征掩码与对应指标,指标可按需开启交叉验证。优化结束后输出最优掩码用于新数据,也可增设外层交叉验证,在预留数据上校验结果以提升可靠性。

BCI-sift工作流程概述。该工具箱接收来自脑机接口任务的脑数据,以及特征筛选流程对应的标签和用户自定义分析参数。随后BCI-sift执行选定的优化分析,并输出三类结果:用于标记最优相关特征的特征掩码、汇总各项评价指标的结果表格,以及用于结果解读的可视化图像。虚线边框代表连续优化算法,实线边框则用于标注通用优化方法。©作者团队/arXiv
连续域搜索算法:EEG、ECoG、微电极阵列等脑机采集数据自带时空空间排布特征,工具箱采用连续优化算法限定特征筛选范围,只选取时域连续片段或电极矩形子区域,方便定位关键电极与时域区间,指导硬件布设。工具包含两种算法:连续穷举搜索遍历全部连续候选片段择优选型;随机爬山算法从最小单元逐步向外拓展选区,依靠参数ε调控探索与择优权重,兼顾运算效率与特征筛选效果。
通用特征筛选算法:工具箱中其余算法适用于任意特征维度,无需待选特征在空间或时间维度上相邻。各类算法的核心区别在于遍历规模庞大、结构复杂的候选特征组合空间的实现方式。包括:RFE依托模型特征权重迭代剔除低效特征,运算高效但仅限可输出权重的模型;进化算法、模拟退火(Simulated Annealing)、粒子群优化(PSO)依托专属搜索策略适配全类预测模型,各有收敛与算力优劣;随机搜索随机采样作为基准,用于对标其余算法性能。
数据采集与预处理:后文会详细介绍试验验证环节。本次预处理改用scikit-learn流水线MinMax归一化,同时实验中将公共平均参考也嵌入流水线,依据每次筛选的电极子集动态重参考。
流水线(Pipeline)配置:该工具箱内所有算法均基于scikit-learn评估器或流水线运行,流水线可定义可选预处理步骤与预测模型。
电极筛选结果可视化:研究借助SPM8生成个体仿射变换矩阵,将全部电极坐标映射至MNI标准脑空间并统一配准显示。为直观呈现筛选电极的空间分布,以电极点位为中心布设半高宽10毫米的二维高斯核做平滑处理,融合不同受试者邻近电极信息,生成连续皮层分布图,清晰凸显电极筛选集中的脑区。
实验案例
为验证BCI-sift的实际应用性能,研究团队招募8名受试者开展对照试验,其中7名受试者因癫痫诊疗植入高密度皮层电极(HD ECoG),剩余1人在脑部肿瘤手术期间临时布设64至128通道传感器运动皮层电极,全部受试者需要反复朗读12个荷兰语单词,全程同步记录大脑皮层神经电信号。
频段筛选
实验将神经信号拆解为δ、θ、α、β以及高频频段(HFB,70–170Hz)五种常见频段,在不做任何特征筛选的基础条件下,全维度原始数据的单词分类平均准确率仅19%±4%,大量冗余电极、无效频段和无关时间节点的数据挤占有效特征,是解码效果低迷的核心诱因,而借助BCI-sift内置的递归特征消除算法完成电极与频段联合筛选后,整体识别准确率直接攀升至67%±19%,统计学检验显示数据提升具备显著差异性(p=0.01),直观印证了工具的筛选价值。
在锁定高频频段为核心有效信号后,研究团队聚焦电极位置开展第二轮精细化筛选,仅保留高频脑电数据开展测试,全部电极不加筛选时分类准确率均值为66%±13%,经由BCI-sift筛除无效电极后,平均识别精度提升至75%±19%。
电极筛选
统计结果显示,被算法高频保留的电极大多集中在中央沟周边区域,电极入选概率和到中央沟的距离呈现显著负相关(ρ=-0.12,p=0.0002),这和人体运动、言语相关脑区的解剖分布高度契合,说明该工具不仅能优化模型精度,还可以反向挖掘大脑生理规律,精准定位和语言产生相关的关键脑区点位,后续能够为脑机接口电极布局、侵入式脑机接口设备硬件设计提供客观的数据参考。

经递归特征消除筛选得到全部受试者的电极被映射至标准化MNI脑空间模板上。色标代表各电极在跨受试者最终特征筛选阶段被选中的交叉验证折数累计占比(共10折)。出于可视化需要,P2被试的数据映射至大脑左半球。©作者团队/arXiv
时间特征筛选
除频段与电极筛选外,BCI-sift还能对脑信号的时间维度实现智能优化,实验划定发声前后各1秒共2秒的采样窗口,以50赫兹采样得到100个时间节点数据,全时段数据未经筛选的平均准确率为66%±13%,经过时序特征筛选后提升至71%±11%(p=0.01)。
数据分析发现,算法筛选出的有效信号集中在发声后330毫秒左右,同时发声前约150毫秒也存在少量关键神经信号,对应人体说话前的大脑预备激活活动;识别精度偏低的受试者,往往会误筛选大量发声前0.5秒以外的冗余噪声数据,高精度受试者则几乎不会选用该时段无效数据,这套时间规律也贴合人类语言生成的脑神经活动时序特征。
现实中不少失语类闭锁综合征脑机应用无法获取发声起始时间标记,缺少时序标注会大幅降低解码效率,科研人员模拟该受限场景更换数据对齐基准,改用提示音触发数据分段,剔除1名提示信号缺失的受试者后,剩余受试者全量时序数据基准准确率仅50%±8%,依托BCI-sift自动筛选关键时间特征后,准确率提升至58%±13%(p=0.02),优化后结果和依托发声时刻标定的最优结果无统计学明显差距(p=0.18)。
这一结果意味着即便缺少先验实验信息,该工具依旧能自主挖掘大脑活动规律,在临床缺乏精准时序标签的落地场景中具备极强实用潜力,拓宽了非理想实验条件下脑机系统的应用边界。
噪声电极容错测试
实测过程中科研人员还加入噪声电极容错测试,把此前人工剔除的32个信号紊乱、波形平直的无效电极重新纳入数据集,除去无故障电极的受试者后剩余7人参与试验,全电极原始数据分类准确率仅有45%±20%,借助BCI-sift自主筛除坏电极后,准确率回升至61%±28%(p=0.03),优化结果和提前手动剔除坏电极的数据没有显著差异(p=0.08)。
数据统计显示,32个故障电极整体入选最终有效特征的概率仅4.1%,其中30个噪声电极在全部交叉验证分组里完全被算法舍弃,证明BCI-sift自带自动降噪能力,可省去人工逐个排查劣质电极的繁琐步骤,有效解决临床脑电数据采集时常伴随的电极故障难题。
全品类特征筛选工具
研究团队表示,BCI-sift工具箱并非单一算法工具,不同生理数据集适配算法存在差异,内部集成的多种算法并行架构能够适配EEG、ECoG电极等各类脑机采集信号。依托模块化开源设计,科研者可自由新增自定义优化算法,搭配并行运算与超参自动调优功能,兼顾小型实验室探索与大规模工程化数据分析需求。
放眼脑机接口行业发展,以往各类特征筛选算法各自独立开发、适配场景受限,多数方案仅能适配单一采集设备,很难跨数据集复用,而BCI-sift打破了技术碎片化壁垒,经过高密度ECoG验证的底层逻辑同样适用于非植入式EEG、植入式微电极阵列等全品类脑机信号采集方式,为脑机接口科研与从业人员提供了一项可选择的开源工具。
开源地址:https://github.com/UMCU-RIBS/BCI-sift
论文信息
标题:BCI-sift: An automated feature selection toolbox for Brain Computer Interface applications
发表日期:v1 2026/5/19
期刊:arXiv预印本平台
DOI:https://arxiv.org/abs/2605.19646
作者团队:见下图

声明
本文内容、图片来自原论文,详情可参考相关链接,如有侵权请告知删除。
了解更多脑机接口行业资讯
扫码加入“脑机接口”知识星球
