ICCV 2025 | 新型后门攻击直指Scaffold联邦学习，NTU联手0G Labs揭示中心化训练安全漏洞

机器之心发布

机器之心编辑部

通过使用控制变元（control variate）来校准每个客户端的本地梯度，Scaffold 已被广泛认为是缓解联邦学习中数据异质性影响的一种强大方案。但尽管 Scaffold 实现了显著的性能提升，这种优越性是以增加安全漏洞为代价的。

本文中，NTU、0G Labs等机构提出了 BadSFL，这是首个针对 Scaffold 的后门攻击方法，它能够将原本良性的客户端转化为攻击的帮凶以放大攻击效果。

BadSFL 的核心思想是在不引人注意的情况下，篡改控制变元，从而巧妙地引导良性客户端的本地梯度更新朝着攻击者设定的「中毒」方向前进，有效地使它们在无意间成为协助者，显著增强了后门的持久性。

另外，BadSFL 利用一个经过生成对抗网络（GAN）增强的数据投毒策略，丰富了攻击者的数据集，在保持对正常样本和后门样本都具有高精度识别能力的同时，保持隐蔽性。

大量实验证明，BadSFL 在攻击持续性方面表现出色，即使在停止恶意模型注入之后，仍能维持超过 60 轮的攻击效果——比现有基准方法持续时间长达三倍。

该论文已经入选 ICCV 2025。

论文标题：Mind the Cost of Scaffold!Benign Clients May Even Become Accomplices of Backdoor Attack
论文链接：https://arxiv.org/abs/2411.16167

引言

联邦学习（Federated Learning，简称 FL）在保护客户端数据隐私的同时，实现了分布式模型训练。然而，FL 模型的有效性在很大程度上取决于训练数据在各客户端之间的分布情况。通常存在以下两种场景：1）IID 数据：训练数据在各客户端之间均匀分布；2）非 IID 数据：更符合现实的数据分布情况，即各客户端的数据特征存在显著差异。在 IID 场景下，已有工作 FedAvg 脱颖而出，它通过聚合来自客户端的模型参数，设定了服务器端模型更新的标准。然而，在非 IID 场景中，其性能会显著下降。由于数据异质性，不同客户端的更新方向存在偏移，最终导致模型收敛效果变差。

为应对这一挑战，Scaffold 作为一种稳健的联邦学习（FL）方法被提出，旨在通过基于控制变元（control variates）的校正机制来减缓客户端更新的偏移，从而提升在非 IID 场景下的模型收敛性。控制变元本质上是对客户端本地梯度与全局梯度之间差异的估计，它有助于将本地更新方向与全局优化目标对齐。Scaffold 能够减少由于数据异质性引起的更新方差，使其在客户端拥有多样化数据分布的场景中表现尤为出色。

然而，Scaffold 联邦学习（SFL）不仅改变了 FL 模型的收敛方式，也影响了其对抗恶意操控的鲁棒性。具体而言，联邦学习中的恶意客户端可以利用模型更新机制注入后门行为，将隐藏的异常行为植入全局模型中。尽管已有大量研究关注 FL 中的后门攻击，但大多数现有工作主要聚焦于 IID 场景，在这些场景中，攻击者对数据集分布具有完全认知，因此可以轻松构造中毒更新。相比之下，非 IID 数据分布引入了额外的限制，使得攻击者更难在不显著降低整体性能的前提下，将中毒模型与全局模型对齐。虽然近期已有研究开始探索非 IID 联邦学习中的后门攻击，但这些研究在很大程度上忽视了 SFL 引入的独特安全隐患。

因此，本论文旨在探讨的问题是：「SFL 的新机制（即用于校正更新偏移的控制变元）是否可能引入新的安全威胁，并在非 IID 场景中无意间为后门攻击提供便利？」

我们对上述问题的回答是肯定的。我们的新发现是：Scaffold 对控制变元的依赖引入了一种新的攻击面 —— 其原本用于通过将本地更新与全局目标对齐以稳定训练过程的校正机制，实际上可能在无意中放大了恶意更新的影响。更关键的是，这一机制允许攻击者直接影响控制变元本身，从而有效地将良性客户端「招募」为协助实施攻击的帮凶。

由于所有客户端在更新过程中都会使用控制变元来调整本地梯度，因此一旦控制变元被篡改，就可以在不易察觉的情况下引导这些诚实客户端的梯度朝着攻击者设定的「中毒方向」演化。这种方式极大地增强了后门攻击的传播范围，使得 Scaffold 比没有类似校正机制的标准 FL 方法（如 FedAvg）更容易受到复杂攻击的影响。

为了利用上述发现，我们提出了一种专门针对 Scaffold 联邦学习（SFL）的新型后门攻击方法 ——BadSFL，该方法能够在不显著破坏模型对正常样本推理性能的前提下，成功地将后门功能植入全局模型。

与以往的攻击方法不同，BadSFL 利用了 Scaffold 的校正机制，不仅增强了后门的隐蔽性，还提升了其持久性，从而揭示了 SFL 方法中的一个关键漏洞。BadSFL 的运作流程包括如下：

GAN 补全数据知识：由于攻击者只能部分掌握 FL 系统中的数据分布信息，他通过使用生成对抗网络（GAN）生成属于其他客户端的数据样本来补充自身数据集，从而模拟出对整体数据分布的全面认知。在此补充数据集上进行后门训练后，攻击者可以获得在后门任务和正常任务上都表现良好的后门模型。
隐蔽后门触发器设计：攻击者选择某个类别中的特征作为后门触发器，从而保持攻击的隐蔽性。
操控全局控制变元：攻击者利用全局控制变元作为参考，用于预测全局模型的收敛方向。这一优化策略显著增强了后门功能在全局模型中的持久性。

联邦学习中的非 IID 场景

在联邦学习（FL）中，非 IID 是指客户端之间的数据分布存在显著差异。在非 IID 场景下，这种本地数据分布的不一致会导致本地最优解与全局最优解之间存在偏差。这种偏差会引发本地模型更新的漂移现象，即本地模型倾向于朝着各自的本地最优解前进，而这些本地最优解可能与全局最优解相距甚远。因此，将这些本地模型进行平均时，得到的全局模型可能会偏离真实的全局最优解，尤其是在存在大量本地训练轮次的情况下。

如下图 1 所示，在 IID 场景下，全局最优解与本地最优解相对一致，而在非 IID 场景下，全局最优解可能与单个本地最优解相距较远，这一现象被称为客户端漂移（client-drift），从而导致 FL 训练过程中的收敛变慢且不稳定。

资讯配图

为了解决上述挑战，学术界已经提出了多种联邦学习（FL）算法，其中 Scaffold 是最为实用的解决方案。它通过在服务器端和客户端同时使用控制变元（即方差缩减技术）来应对客户端漂移问题。这些控制变元能够估计全局模型与本地客户端模型的更新方向，并根据漂移对本地更新进行校正，从而减少本地最优解与全局最优解之间的偏差（见算法 1）。在本文中，我们主要聚焦于针对 SFL（Scaffold Federated Learning）的后门攻击设计。

后门攻击在 SFL 中的挑战

在 SFL（Scaffold Federated Learning）中实施后门攻击面临以下挑战：

知识有限。在非 IID 场景中，攻击者对各客户端数据分布缺乏了解，这是主要挑战之一。与 IID 场景不同，在 IID 中对数据集有集中化的认知，有利于攻击者操控；而非 IID 场景涉及分散且多样化的数据分布。这会导致以下三个问题：

直接的后门策略可能会导致良性样本上的性能大幅下降，从而使全局模型被拒绝；
数据分布的差异性加剧了本地模型与全局模型之间的差距，使得恶意模型更容易被检测到；
将中毒模型与全局模型平均聚合会降低其在主要任务上的性能。

控制变元。在 SFL 中，控制变元（记为 c_i）用于纠正客户端漂移，使本地模型与全局模型对齐。如果攻击者严格遵守协议，在植入触发器的过程中使用 c_i 对恶意模型进行校正，攻击效果可能会减弱。相反，如果攻击者选择不当篡改 c_i 并将恶意的 c 上传至服务器，则可能导致全局模型被破坏。
后门灾难性遗忘。灾难性遗忘是指神经网络在学习新任务时忘记先前已学任务的现象。这会导致后门功能随着时间推移而失效。如果攻击者停止上传恶意更新，后门功能最终可能会被良性更新「抹去」。

BadSFL 算法详解

为克服上述挑战，我们提出了 BadSFL，其详细步骤见算法 2。BadSFL 主要包含以下 4 个步骤：

步骤 1：初始化。攻击者首先从服务器下载全局模型和控制变元 c，并启动攻击。随后，攻击者利用下载的全局模型来更新本地模型和判别器 D。
步骤 2：基于 GAN 的数据补充训练。攻击者在生成器 G 和判别器 D 上执行 GAN 训练。当生成器收敛时，意味着其具备生成逼真伪样本的能力，这些样本属于类别 C，但不来自（攻击者本地数据集），而是模拟来自其他客户端的数据集。然后，生成器 G 被用于生成一定数量的类别 C 样本，形成数据集。该数据集接着与攻击者的原始数据集合并，生成新的数据集。
步骤 3：后门样本选择与触发器注入。在数据集上，攻击者选择带有特定特征的样本作为后门样本，并将其重新标注为目标类别 x，该目标类别与原始标签不同。攻击者将这些经过篡改的样本组织成单独的数据集，并将其与合并，最终得到用于后门训练的数据集。
步骤 4：后门模型训练与优化。攻击者基于数据集训练本地模型。在训练过程中，攻击者按照公式 (3) 优化后门目标。模型收敛后，得到后门模型更新以及对应的控制变元，并可将其上传至服务器。

基于 GAN 的数据集补充

在非 IID 数据场景中，直接将后门样本注入数据集资讯配图进行训练往往会导致模型出现更大的偏差，显著偏离全局最优解。

为缓解这一问题，攻击者可以使用 GAN 生成与其他客户端数据相似的合成样本。其方法是通过在本地非 IID 数据上训练生成器 G，以缩小数据集之间的差距。GAN 的架构主要由生成器 G 和判别器 D 组成。在本文场景中，生成器 G 由一系列「反卷积」层组成，它们逐步将随机噪声转换为样本；而判别器 D 的结构与全局模型高度相似，唯一区别在于输出层用于区分假样本和真实样本。攻击者在本地迭代训练生成器 G，并以判别器 D 作为约束，直至其收敛并能够生成逼真的伪样本，这些样本并不来自攻击者的原始数据。

与此同时，随着 SFL 过程的进行，全局模型逐渐收敛。在每一轮服务器 - 客户端通信中，攻击者都会利用从服务器下载的最新全局模型资讯配图更新判别器 D，并对生成器 G 进行新一轮优化训练，以引导其生成更加真实、接近其他客户端数据的伪样本。最终，这些高质量的合成样本会被整合进攻击者原始的非 IID 数据集，从而有效地补充了额外的数据类别。

攻击者在每一轮本地训练中，会利用从服务器下载的最新全局模型资讯配图同步更新判别器 D，随后执行 GAN 训练以优化生成器 G 的性能。该过程的输出结果会被合并到攻击者的非 IID 数据集中，用于进一步的后门训练。由于生成的样本与其他客户端数据集的样本高度相似，攻击者训练得到的本地最优解能够比其他客户端的本地最优解更接近全局最优解。下图 3 展示了在有与无数据补充技术的情况下，聚合后的全局最优解之间的差异。

资讯配图

触发器选择与注入

利用已准备好的数据集资讯配图（包含原始数据和合成数据），攻击者继续在模型中注入后门。BadSFL 使用以下三种技术来实现后门注入：

标签翻转（Label-flipping）：将数据集中某一类样本 a 的真实标签直接修改为另一标签 b。例如，在 CIFAR-10 中，将所有「dog」标签改为「cat」。
触发器模式（Pattern trigger）：在样本中加入特定的触发模式进行投毒，例如在图像中添加一个小马赛克方块，以激活后门行为。攻击者将这些带触发器的投毒图像与目标标签一同注入，从而建立触发模式与目标错误分类之间的关联。
基于特征的隐蔽后门（Feature-based backdoor）：这种方法更为隐蔽，它通过选择某个类别中的独特特征作为后门触发器，而无需直接篡改图像，从而增加检测难度。例如，在 CIFAR-10 中，将「car」类中的所有绿色汽车设为后门触发器。在推理阶段，只有当输入图像中包含绿色汽车时，受损模型才会输出攻击者设定的目标标签。由于这种触发器是类内自然特征的变异，因此很难被检测到。

使用控制变元来进行后门训练

如前文所述，全局控制变元 c 在 SFL 中用于纠正客户端漂移。具体来说，校正值资讯配图会将本地模型的参数调整到更接近全局模型的位置。在本地模型训练过程中，这一校正项能够有效地「拉动」发生漂移的本地模型，使其更接近全局模型，从而促进模型向全局最优解收敛。在服务器聚合阶段，全局控制变元 c 是通过对所有本地模型的漂移值进行平均计算得到的，这一平均值代表了全局模型的收敛方向。

从攻击者的角度来看，如果按照 SFL 规则让控制变元去校正中毒模型，会降低后门攻击的有效性。然而，攻击者仍然需要提交一个控制变元资讯配图来报告后门模型的漂移情况。其关键思路是：训练一个比其他基于非 IID 数据训练的本地模型更接近全局模型的后门模型。由于全局控制变元 c 对参与的客户端是已知的，它可以作为全局模型收敛方向的参考，帮助中毒模型更好地对齐全局最优解。这种基于 c 的约束类似于「利用未来的全局模型进行优化」的思路。该约束可以被集成到损失函数中，以增强后门在全局模型中的有效性和持久性。

最初，攻击者执行后门训练，并按如下公式 (1) 优化其后门目标：

其中，L 表示后门任务的损失函数，资讯配图为攻击者模型的权重。

在 BadSFL 攻击中，我们对标准后门目标函数进行了修改，增加了一项约束，以确保攻击者发送到服务器的后门更新能够在后续更多轮训练中持续保留在全局模型的后门功能中。我们可以模拟一次聚合轮，并应用控制变元 c 来预测未来一轮的全局模型。修改后的目标函数为公式 (2)：

综合起来，我们将攻击目标形式化为以下公式 (3)：

其中，j 表示资讯配图预期的未来训练轮数。通过将后门模型优化得更接近全局模型，攻击者同时优化控制变元，使其与预期的漂移值对齐。这样可以确保攻击者的行为仍然符合 SFL 协议（算法 1）。

实验结果

本文在 MNIST、CIFAR-10 以及 CIFAR-100 三个数据集上对 BadSFL 的有效性进行了实验评估。实验比较了 4 个其它的已知后门攻击，包括Block-box Attack、Neurotoxin、Irreversible Backdoor Attach (IBA) 和 3DFed。下表 1 总结了细节的实验设置。

从图 6a 到图 6f，我们展示了在 CIFAR-10 和 CIFAR-100 数据集上与基准方法的攻击对比。可以明显看出，BadSFL 在攻击有效性和持久性方面都优于基准攻击方法。

具体来说，在攻击者仍参与训练过程、执行后门训练并向服务器上传恶意更新的前 10 轮中，BadSFL 在所有类型的后门攻击中都实现了超过 80% 的后门任务准确率。同时，BadSFL 保持主要任务的准确率在 60% 左右（见下图 5b）。此外，即使攻击者在第 40 轮退出训练过程，后续轮次中的良性客户端仍会继续上传正常更新，这可能会影响攻击者在之前攻击轮次中的中毒更新，从而逐渐抹去后门功能。

尽管如此，BadSFL 仍能保证后门功能的持久性，在整个 100 轮 SFL 训练中后门任务准确率始终保持在 90% 以上，这比两种基准攻击的生命周期长 3 倍（基准攻击的后门任务准确率在第 60 轮后降至 50% 以下）。横向对比不同类型的后门触发器注入效果（图 6a、6b 和 6c），可以发现基于特征的触发器表现最佳，得益于其隐蔽性，它不直接篡改图像，因此其更新与良性更新冲突的可能性较小。

图 6g 和图 6h 展示了在 MNIST 数据集上获得的实验结果。类似地，BadSFL 也优于其他基准攻击方法，在后门任务准确率和主要任务准确率上均超过 85%。当恶意更新在第 40 轮停止注入后，在标签翻转攻击中，两种基准攻击的后门任务准确率在 10 轮内灾难性地下降到 40% 以下，而 BadSFL 在后续轮次中能在全局模型中保持长达 5 倍更持久的后门功能。在触发器模式攻击中，BadSFL 也在全局模型中注入了更高效的后门功能，其准确率比基准方法高出 10%。

总结

本文提出了 BadSFL，这是一种专为使用 Scaffold 聚合算法的非 IID 联邦学习环境设计的新型后门攻击。通过采用基于 GAN 的数据增强技术并利用 Scaffold 的控制变元，BadSFL 在攻击有效性、隐蔽性和持久性方面均优于现有方法。我们在多个基准数据集上的实验结果表明，该攻击具有显著的有效性，且后门功能的持续时间远超已有方法。未来，我们希望研究人员能够设计出更稳健的防御机制，包括使用在去中心化环境中的可验证训练方法，以保护联邦学习系统免受此类攻击的威胁。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com