英文标题:Fine-grained label propagation via density-based prototype matching for cross-subject EEG emotion recognition

成果简介
基于脑电(EEG)信号的情绪识别已成为情感计算领域的研究热点。然而,个体差异和标签噪声等挑战严重阻碍了模型的泛化能力与准确性。为应对这些挑战,本研究提出一种新颖的基于密度原型匹配(DBPM)的细粒度标签传播框架。该框架利用基于密度的聚类来捕捉细粒度的子域结构,从而实现跨域的鲁棒原型匹配与可靠标签传播。此外,设计了一种顺序多源训练策略,以逐步整合多个源域,确保稳定的一对一原型匹配并减轻源域间的干扰。研究在两个公开的EEG情绪数据集(SEED和SEED-IV)上采用留一被试交叉验证协议进行了大量实验。结果表明,所提出的DBPM方法达到了最先进的性能,为应对EEG情绪识别中的个体差异和标签噪声提供了有前景的解决方案。
研究方法
如图1所示,方法首先学习表现出每个领域的持久和不变特征的子域信息,为后续的特征提取奠定基础。然后设计一个无监督的域自适应网络,以确保模型捕获源域和目标域之间具有一致边缘分布的特征,从而减少域差异对性能的影响。接下来,基于提取的子域信息计算源域和目标域的子域原型。使用原型匹配策略,生成目标域子域原型的伪标签,并将其传播到相同子域内的所有对应样本。最后,优化了目标域样本的伪标签与模型输出之间的交叉熵损失,保证了同一子域内样本之间情感状态的一致性,增强了模型对噪声数据的稳健性。

图1.所提出的DBPM框架。该模型包括三个部分:基于密度的子域信息、无监督的子域自适应和原型匹配伪标注。
A.基于密度的子域信息
方法采用基于密度的方法来捕捉个体内部子域分布。具体而言,子域空间被建模为由低密度区域分隔的高密度区域,并使用基于密度的DBSCAN算法进行聚类分析。值得注意的是,方法直接从原始数据中提取子域信息,因为它具有优越的子域可分离性。这些信息将持续指导网络训练过程。
B.无监督域适应
设计了基于DANN中提出的域对抗策略的特征提取器,以缓解个体差异并提取域不变样本特征,从而提高跨被试模型在目标域上的泛化能力。在域对抗模型中,引入了一个额外的神经网络,称为域判别器𝑑(⋅),用于区分从源域𝑓(𝑋𝑠)和目标域𝑓(𝑋𝑡)提取的特征。特征提取器的目标是生成"混淆性"特征,使得域判别器无法准确识别样本所属的域。
C.子域原型匹配
方法提出一种基于子域原型的标签传播策略,该策略将标签信息从源域扩展到目标域,以实现细粒度条件分布对齐。本文假设每个子域都有一个原型表示,标签传播通过这些原型进行。原型学习已在多个领域得到广泛应用,并因其在特征学习中的有效性而受到认可。具体而言,原型表示编码了给定类别或关系的最具代表性的信息,子域内的样本特征分布围绕其原型表示。
D. 目标伪标签损失
为了提升跨被试情绪识别,模型利用为目标域生成的伪标签来提供额外的监督信号。这些伪标签从源域传递标签信息,引导分类器即使在缺乏真实标签的情况下也能学习用于目标域的判别性特征。
E. 多源学习
采用两阶段学习框架。首先在混合源预训练阶段,对于每一次交叉验证折,目标被试被留出,仅使用其余被试来构建混合源域。具体而言,所有剩余源被试的数据被聚合为一个统一源数据集 ,称为混合源域。该混合源域与目标域被联合用于对抗训练中,以促使特征提取器学习域泛化表征。预训练目标由混合源域上的分类损失以及混合源域与目标域之间的对抗损失组成。
接下来是顺序多源训练阶段,单独整合每个源域。通过将每个源域分别与目标域对齐,模型在保持语义一致性的同时,更准确地减少了条件分布差异。在此训练过程中,优化由多个目标指导,包括分类损失、伪标签损失和对抗损失,这些目标共同确保模型有效捕捉子域内的情绪模式,并将该知识跨被试迁移。
研究结果
表1.DBPM与SEED和SEED-IV数据集上现有最佳方法的性能比较

表2.DBPM在SEED和SEED-IV数据集上跨会话的性能表现

表3.对所提出模型的消融研究


图2.在SEED数据集上评估的不同模型的混淆矩阵:(a) DBPM,(b) PR-PL ,(c) Gusa 。

图3.在SEED-IV数据集上评估的不同模型的混淆矩阵:(a) DBPM,(b) PR-PL ,(c) Gusa 。
表4.SEED数据集噪声标签性能评估


图4.所提DBPM在不同超参数设置下的准确率(%)。(a) 预训练轮数的影响。(b) 公式(10)中参数𝛽的影响。

图5.训练过程中源域损失与加权目标域损失比率的演化趋势

图6.三种算法(DANN 、PR-PL 、DBPM)随训练轮数变化的准确率(%)

图7.三个相邻源域的准确率
表5.不同源域加载顺序下的准确率(%)

表6.不同伪标签策略的准确率(%)

表7.跨不同数据集的原型匹配有效性


图8.不同配置下学习到的特征表示的t-SNE可视化结果
表8.在SEED和SEED-IV数据集上的跨数据集实验性能

研究结论
本文提出一种基于密度的原型匹配模型,该模型利用基于密度的聚类来捕捉个体内部的子域结构,并采用原型来表示这些子域的细粒度特征。为实现源域与目标域之间的细粒度条件分布对齐,本研究设计一种基于原型匹配的伪标签传播策略,以提升跨域迁移性能。实验结果表明,所提出的DBPM模型在两个公开的EEG情绪数据集(SEED和SEED-IV)上取得了显著的性能提升。此外,多种实验设置证实DBPM模型在解决EEG情绪识别中个体差异和标签噪声问题上的优越性。具体而言,通过有效捕捉子域信息并实现原型匹配,该模型成功减少被试间特征分布差异,并增强了伪标签的可靠性。在未来的工作中,计划引入更多EEG情绪数据集,以进一步验证DBPM模型的泛化能力。同时,探索不依赖试次信息进行跨被试情绪识别的可行性,这可能带来更灵活且实用的应用。