
论文题目:PCEvolve: Private Contrastive Evolution for Synthetic Dataset Generation via Few-Shot Private Data and Generative APIs
论文地址:https://arxiv.org/pdf/2506.05407

创新点
提出了一种新的算法PCEvolve,通过迭代挖掘少样本私有数据中固有的类别间对比关系,并将其整合到适应性指数机制(EM)中,优化差分隐私(DP)的效用,从而在进化循环中生成高质量的合成数据。
设计了一个对比滤波器(contrastive filter),利用私有数据中不同类别之间的对比关系,增强合成数据的类别可区分性。这种方法不仅考虑了单个数据点,还考虑了类别间的整体关系,从而提高了合成数据的质量。
PCEvolve采用了适应性指数机制(EM),通过优化效用函数的设计,减少了高斯机制中由于高灵敏度带来的过度噪声问题。这种机制在少样本场景下表现更好,能够更有效地保护隐私,同时提高合成数据的效用。
方法
本文的主要研究方法是提出了一种名为Private Contrastive Evolution(PCEvolve)的算法,用于在少样本私有数据和生成式API的条件下生成合成数据集。PCEvolve的核心思想是通过迭代挖掘少样本私有数据中固有的类别间对比关系,并将其整合到适应性指数机制中,以优化差分隐私的效用。具体来说,PCEvolve首先利用私有数据计算出各个类别的中心点,以减少少样本问题带来的偏差。然后,设计了一个对比滤波器,通过比较合成数据与私有数据类别中心的距离,筛选出具有类别可区分性的合成数据。接着,引入了一个相似性校准器,将对比滤波器的结果转换为相似性分数,并通过校准这些分数来增强指数机制的效用,从而在保护隐私的同时,优先选择与私有数据高度相似的合成数据。最后,PCEvolve利用这些高相似性的合成数据作为反馈,通过生成式API进一步优化合成数据集,以生成更高质量的合成数据。
PE中10-shot私有图像和100-shot合成图像的场景

本图展示了在PE算法中,当处理10-shot私有图像和100-shot合成图像时的情况。图中红色表示私有数据的投票,蓝色表示噪声。可以看到,由于私有数据样本数量较少,噪声超过了实际的投票数,导致相似性投票几乎随机化,从而影响了合成数据的质量。
PCEvolve算法的示意图

本图展示了PCEvolve算法的核心结构和流程。图中详细描述了PCEvolve如何通过聚合类别中心、应用对比滤波器(contrastive filter)、相似性校准器(similarity calibrator)以及指数机制(Exponential Mechanism)来选择高质量的原型合成数据(proto data),并将其作为反馈传递给生成式API,以迭代优化合成数据集。不同颜色表示不同的数据类别,图中还标注了各个步骤的具体操作,如“Agg”表示类别中心聚合,“Exp”表示应用指数机制。
不同K-shot私有数据对下游模型性能的影响

本图展示了在KVASIR-f数据集上,随着每类私有数据样本数量K的变化,不同方法对下游模型性能(以Top-1准确率衡量)的影响。图中可以看到,利用私有数据进行过滤或评估生成合成数据的方法(如RF、PE和PCEvolve)随着私有数据量的增加而性能提升更为明显,因为这些方法依赖于进化循环多次访问私有数据。而DPImg方法由于需要添加更多噪声以确保隐私,随着私有数据量的增加性能反而下降。
实验结果

本表展示了展示了在四个专业领域数据集(包括医疗和工业领域)上,不同方法生成的合成数据在下游任务中的性能表现,以 Top-1 准确率(%)作为评估指标。从表中可以看出,PCEvolve 在所有数据集上的表现均优于其他基线方法。例如,在 Came17 数据集上,PCEvolve 的 Top-1 准确率达到了 69.10%,比 PE 方法高出 5.44%。这表明 PCEvolve 在处理少样本私有数据时,能够更有效地生成高质量的合成数据,从而在下游任务中取得更好的性能。此外,PCEvolve 在不同数据集上的性能提升也体现了其在不同专业领域的适用性和鲁棒性。总之,通过对比不同方法在多个专业领域数据集上的性能,突出了 PCEvolve 在少样本私有数据场景下生成高质量合成数据的能力,以及其在隐私保护和数据效用之间的良好平衡。
-- END --

关注“学姐带你玩AI”公众号,回复“2025大模型”
领取2025大模型创新方案合集+开源代码
