近期,成都信息工程大学计算机学院智能神经信息编解码实验室的郜东瑞团队有效利用EEG信号的时-频-空特征,提出了一个名为CSF-GTNet的疲劳检测新框架。框架中设计了高斯时域网络和纯卷积空频域网络,不仅在理论上具有先进性,而且在多个疲劳数据集上展示出良好的分类性能和较强的可解释性。
成都信息工程大学计算机学院郜东瑞副教授为论文的第一作者,硕士研究生李芃锐为第二作者,成都信息工程大学为第一作者单位和通讯单位。
该论文发表在IEEE JOURNAL OF BIOMEDICAL AND HEALTH INFORMATICS。题目为《CSF-GTNet: A Novel Multi-Dimensional Feature Fusion Network Based on Convnext-GeLU-BiLSTM for EEG-Signals-Enabled Fatigue Driving Detection》
疲劳导致的驾驶员警觉性和判断能力下降是交通事故发生的重要原因,因此设计能够准确反映驾驶员大脑警觉性的疲劳检测技术对于减少交通事故具有重要意义。脑电信号被认为是一种有效的疲劳检测手段,能够直观反映驾驶员的精神状态。然而,监测驾驶员的精神状态面临一些挑战。一个挑战是从复杂和不稳定的EEG信号中全面提取特征,并在多维度上分析数据。另一个挑战是探索不同被试和模型学习到的特征之间的关系。
数据收集与预处理
该研究使用到两个数据集,一个是实验室采集的,一个是公开的SEED-VIG。
实验室的数据是在模拟驾驶舱中采集的,并通过了道德伦理审核。共有10名被试参与了实验,年龄在23-24岁之间,并且都持有驾照。数据采集设备采用国际公认的BP采集设备。除一个参考电极外,可同时获得31个电极通道的数据,采样频率为1000 Hz。每个参与者的模拟驾驶时间设定为1 h,驾驶前后,所有受试者都要休息5分钟,并填写疲劳自测表和邓迪压力表。该数据的标签参考SEED-VIG的标签方法。通过我们采集的人脸视频的身体特征评价方法,可以观察10秒内眨眼和闭眼时间占总时间的比例来判断他们是否疲劳。PERCLOS广泛用于图像研究。这也是国际上高度认可的评估疲劳的方法。
SEED-VIG数据集是通过随机选择23名受试者并在完全模拟的驾驶舱中进行实验来收集的。为每个受试者收集脑电图和眼电图。但该团队只研究驾驶员在正常和疲劳状态下脑电信号的变化,所以只选取脑电信号。由于每个受试者进行实验和数据收集的时间为118分钟,总共7080秒,每秒的采样频率为200 Hz,因此将有1416000个采样点。另外,每个主体都有一个标签文件,他们使用的标签方法是通过PERCLOS指示器。数据集每8秒选择一个标签,标签值在(0,1)之间。数值越小,受试者的疲劳程度越低。每个受试者被标记了885个标签,根据PERCLOS值分为三类。
带通滤波器是高通和低通滤波器协同工作的结果,可以有效滤除信号中的噪声,获得有用的信息。此外,大多数工作也使用带通滤波器得到五个频带。因此,本文在两个数据集上的预处理均采用带通滤波器将脑电信号滤波出五个频带,即Delta(0–4Hz)、Theta(4–8Hz)、Alpha(8–12Hz)、Beta(12–30Hz)和Gamma(30–50Hz),以减少噪声对最终检测效果的影响。然后,使用微分熵(DE)来提取人工特征用于后续的研究。
方法
如图1所示,CSF-GTNet主要由纯卷积空频域网络(CSFNet)和高斯时域网络(GTNet)构成,接下来将详细介绍这两个模块。
图1 脑疲劳检测的实验框架
1. 纯卷积空频域网络(CSFNet):受提出的Convnext的启发,本文改进了可用于处理EEG空频特征的CSFNet模型。该模块包括输入模型、特征提取模块和输出模块。输入层的卷积块包含96个大小为4×4的卷积核,然后对特征执行批量操作。Layernorm的设计用于稳定特征分布情况。输入层的作用是将我们的5通道特征转换成96通道特征。特征提取层由多个下采样和阶段模块组成。下采样中卷积核的大小是2×2,阶段卷积核的大小是7×7。细节如图2和图3所示。这里我们介绍卷积层的计算过程。定义输入特征X = (X1,X2,…,XN)和输入特征的尺寸为(C,H,W),其中N表示batch_size的大小,C表示输入的通道尺寸,H表示特征高度,W表示特征宽度。卷积层的计算公式如下。
其中G代表激活函数,Wc代表权重值。
图2 下采样模块。输入特征通过4*4的卷积图层后,将通过2*2的卷积图层进行降采样。
图3 阶段模块。输入特征经过由多个残差模块组成的三个序贯网络,能够充分保留原有信息,并持续获得新信息。
i)分块设计:在分块模块中,研究团队使用了深度可分离卷积层来降低模型的复杂度,提高模型的性能。同时使用BatchNorm和LayerNorm使模型训练过程更加稳定。整个结构结合ResNext模块在学习过程中创建身份映射。它可以提高神经网络的深度自适应能力,避免在训练过程中出现模型性能退化。
ii)降采样设计:降采样模块由n (1 ≤ n ≤ 3)个卷积模块组成。第一个卷积核的大小为4×4,后续卷积核的大小为2×2,用于空间下采样。在特征提取过程中构建下采样图层可以避免模型过拟合,同时尽可能减小数据大小以提取有用的特征信息。此外,添加BatchNorm和LayerNorm可以稳定模型训练时间。
iii)阶段设计:阶段模块由n个网络层的堆栈组成。每个网络层由几个块模块组成。每个块模块的卷积核的输入和输出通道的数量是相同的。第一网络层包含n个块模块,卷积层的输入输出通道为192个。第二个网络层具有n×n个块模块,其卷积层的输入和输出通道数为384。第三网络层包含n×n×n块模块,其卷积核的输入输出通道数为96 / 192 / 384。如前所述,每个分块模块都是残差连接的。
2. 高斯时域网络(GTNet):对于时间序列特征提取的研究,GRU和LSTM从最初的RNN发展而来。他们可以提取比RNN更有用的时间序列特征。然而,LSTM只能记住“上面”的信息,不能掌握完整的数据序列。使用BiLSTM时,梯度有时会消失,显著影响检测效果。因此,他们通过GeLU激活函数计算和处理输出特征来改进BiLSTM。然后得到一个新的模型,命名为GeLU-BiLSTM。激活变换操作随机地依赖于特征输入,有效地避免了梯度消失。具体地,为前向传播层构造输出序列Pi,根据输入序列的1-n计算和处理该输出序列Pi。反向传播层产生一个输出序列Pi’,根据输入序列的n-1进行计算和处理。然后,通过GeLU激活函数G实现输出结果。激活函数的公式如下所示。
因此,结果如下所示。
最后,他们融合了CSFNet和GTNet的输出特征,并概括为:
其中O1表示GTNet输出的特征,O2表示CSFNet输出的特征,Concat描述了将两个网络输出的特征相连接。再通过均方误差函数来计算分类损失:
其中yi代表实际值,yi’表示预测值,m表示数据的大小。
研究结果分析
本文重点研究了基于时-频-空特征的EEG疲劳检测问题,CSF-GTNet框架以提升EEG疲劳检测性能为目标,通过设计纯卷积空频域网络和高斯时域网络对EEG信号的高维空间和时间序列进行有效建模,并且GeLU激活函数的引入优化了多维特征的更新学习。因此,该框架很好的解决了从复杂且不稳定的EEG信号中全面分析多维度特征的问题。此外,研究团队针对每个被试进行了详细的特征解释与分析,并验证了该框架的合理性。
为了全面评估提出的模型,他们首先讨论了模块消融对模型效果的影响,再分别说明提出的模型在混合实验和跨被试实验中是否优于现有的先进技术,最后分析模型学习到的通道和频带特征。
图4 时域模型比较
图4显示了时间序列网络对大脑疲劳检测的影响。他们将常用的处理时间序列的模型,包括BiRNN,BiLSTM,BiGRU,reLU-BiLSTM,tanh-BiLSTM和eLU-BiLSTM,与改进的GTNet模型进行了比较。通过比较,可以发现增强后的BiLSTM和BiGRU效果比原来的BiRNN要好。此外,最近改进的reLU-BiLSTM可以更好地把握时间特征序列。此外,eluBiLSTM比ReLU-BiLSTM具有更好的改善效果。然后,改进的GTNet的效果要比elu-BiLSTM好,说明加入GeLU激活函数可以显著改善模型的检测疲劳。最后,GTNet模型达到了最高的精度,显示了在添加GeLU之后分类性能的提高。
表1和表2显示了提出的模型在自制数据集和基于不同层数的SEED-VIG数据集上的检测性能。在前面已经介绍过stages模块中的每个网络层都有几个基本模块,所以在这里,Convnext1表示(n = 1),Convnext2表示(n = 2),Convnext3表示(n = 3)。从结果可以发现,CSFNet网络的表现优于GTNet,平均准确率可以分别达到82%和79%,分别比GTNet高出10%和9%左右。两者结合得到的网络CSF-GTNet的检测准确率可以达到85.16%和81.48%,比CSFNet提高了3%左右。可以看出,提出的多维特征融合网络在两个数据集上都表现良好。
表1模型不同层数在自制数据集上的效果
表2 模型不同层数在SEED-VIG数据集上的效果
表3和表4显示了提出的模型和现有的深度学习方法之间的比较,在自制和SEED-VIG数据集上具有更好的性能。然而,脑电图数据并不是线性分布的。从表3和表4可以知道,现有的深度学习模型,包括ST_Encoding_CNN,CNN-Attention,CNN-LSTM,BiLSTM,ESTCNN,EEGNet和Interpretable_CNN都有比较良好的效果。值得注意的是,本文呢提出的CSF-GTNet在两个数据集上的检测效果都优于上述方法,平均准确率比其他方法高3%,最高达到85.16%和81.48%。这表明提出的方法能够有效地分析脑电信号数据,准确地完成二分类检测任务,具有较好的性能。这说明提出的模型适用于大脑疲劳检测。而且,融合时域特征和空频域特征进行检测的思路是正确的。
表3 提出的模型和其它方法在自制数据集上的检测效果比较
表4 提出的模型和其它方法在SEED-VIG数据集上的检测效果比较
图5和图6分别显示了提出的模型和现有深度学习方法在两个数据集上的跨被试实验的结果。他们参考前面的混合实验结果作为参考,然后与跨被试实验的结果进行比较。通过数据分析,可以发现提出的CSF-GTNet对单个被试的测试结果的准确率低于混合实验。总体平均结果为71.86%和70.99%,分别比混合调查结果低约13%和10.5%。提出的方法对个别被试的检测效果较差。比如在自制的数据集中,10号被试的检测准确率只有43.47%。在SEED-VIG数据集中,被试22的检测准确率仅为46.27%。提出的方法通常表现出优异的检测效果,比现有的深度学习方法高出约2%。这也证明了提出的方法在两个数据集上的检测效果都有很好的鲁棒性。综上所述,对于自制和SEED-VIG数据集,提出的CSF-GTNet在跨主题实验中表现良好,具有良好的鲁棒性。
图5 在自制数据集上的跨被试检测效果
图6 在SEED-VIG数据集上的跨被试检测效果
如图7所示,就警戒状态而言,有多个被试,如(a)、(b)、(h)、(j),显示大脑额叶最活跃,是在警戒状态下由眼球运动产生的。处于警戒状态的人类信号可能包含许多伪影。这是人的眼球运动和肌电信号对脑电信号的影响。它们产生的这些伪迹是脑电信号警觉性的典型特征。此外,还发现FT9、TP9、FT10和TP10的外周通道电极在其余受试者中更活跃。此外,还发现了一个有趣的模式,其中电极活动和警觉性与四个电极所在的颞叶区域密切相关。在额叶表现出注意力的受试者也在颞叶表现出注意力,这比其他区域的通道发挥了更显著的作用。一个可能的原因是,人类大脑的颞叶区域控制着平衡、情绪和注意力等精神活动。皮层信号比中央区更精确,能更好地反映警觉状态。
在疲劳状态下,如图7(e)、(f)、(I)、(j),发现他们的O1、Oz和O2电极在枕叶区域最活跃。此外,枕叶和顶叶区域的电极通道,如FC1,FC2,CP1和CP2,在其他受试者疲劳时也很活跃。这种现象可能是因为当人处于疲劳状态时,眼球运动的频率降低。此外,它还影响人们控制注意力和情绪等精神活动的能力。
然而,他们也发现受试者在警觉状态下表现出类似疲劳的特征。例如,在图7(h)中,受试者在额叶和颞叶活跃,枕叶被认为是典型的疲劳特征。可能的原因是受试者已经处于早期疲劳状态,但看起来仍处于正常状态。因此,在捕获测试状态时会出现误判。此外,个别受试者在疲劳状态下也表现出了警觉状态的特征。例如,如图7(a)、(c)所示,当两个受试者处于疲劳状态时,额叶区域更加活跃。出现这种情况的原因可能是外部环境和实验过程中被试的身体状态使得采集的数据有噪声,干扰了模型的学习特性。
图7 基自制数据集,模型学习的31个电极通道的特征激活值以脑拓扑图的形式可视化。
此外,他们形象地展示了不同的频带在清醒和疲劳状态下的区别,如图8所示。当受试者处于警觉状态时,θ、α和β波段的激活值较小。当他们处于疲劳状态时,上述三个频带的激活值显著增加。这一结论与之前的研究相同。他们还发现γ带前后激活值变化剧烈,这也可以作为疲劳判断的依据。此外,受试者7的四个频带的激活值高于疲劳状态下的所有其他受试者。可能的原因是该受试者的疲劳程度相对更重
接着,他们还对每个受试者的警觉和疲劳状态的特征激活值进行了T检验。P值小于0.05的两个数据组可被视为显著不同。如表5所示,大多数受试者的P值小于0.05,表明提出的模型可以更好地区分清醒和疲劳状态。然而,受试者1和5的计算结果没有显示出显著差异。这也反映了受试者之间的差异使得模型很难完全区分警戒和疲劳状态。
图8可视化模型为每个受试者在警觉和疲劳状态下学习的每个频带的激活值。
表5对每个受试者的警觉和疲劳状态进行T检验
总结
基于EEG信号的时域和空频域,提出了一种新的多维特征融合网络模型(CSF-GTNet)。提出的模型通过模型消融实验、对比实验、跨被试实验和可解释性实验来检验性能。实验结果表明,该方法优于现有方法,证明了该模型具有更好的分类效果和泛化能力。他们的研究不仅解决了传统机器学习方法和现有深度学习方法在处理复杂数据方面的缺点,而且通过可视化模型学习的特征,更好地验证了提出的模型的优越性。
仅用于学术分享,若侵权请留言,即时删侵!