ICML spotlight|几条样本进化出一个数据集

学姐带你玩AI 2025-09-08 18:15
资讯配图

论文题目:PCEvolve: Private Contrastive Evolution for Synthetic Dataset Generation via Few-Shot Private Data and Generative APIs

论文地址:https://arxiv.org/pdf/2506.05407

资讯配图

创新点

  • 提出了一种新的算法PCEvolve,通过迭代挖掘少样本私有数据中固有的类别间对比关系,并将其整合到适应性指数机制(EM)中,优化差分隐私(DP)的效用,从而在进化循环中生成高质量的合成数据。

  • 设计了一个对比滤波器(contrastive filter),利用私有数据中不同类别之间的对比关系,增强合成数据的类别可区分性。这种方法不仅考虑了单个数据点,还考虑了类别间的整体关系,从而提高了合成数据的质量。

  • PCEvolve采用了适应性指数机制(EM),通过优化效用函数的设计,减少了高斯机制中由于高灵敏度带来的过度噪声问题。这种机制在少样本场景下表现更好,能够更有效地保护隐私,同时提高合成数据的效用。

方法

本文的主要研究方法是提出了一种名为Private Contrastive Evolution(PCEvolve)的算法,用于在少样本私有数据和生成式API的条件下生成合成数据集。PCEvolve的核心思想是通过迭代挖掘少样本私有数据中固有的类别间对比关系,并将其整合到适应性指数机制中,以优化差分隐私的效用。具体来说,PCEvolve首先利用私有数据计算出各个类别的中心点,以减少少样本问题带来的偏差。然后,设计了一个对比滤波器,通过比较合成数据与私有数据类别中心的距离,筛选出具有类别可区分性的合成数据。接着,引入了一个相似性校准器,将对比滤波器的结果转换为相似性分数,并通过校准这些分数来增强指数机制的效用,从而在保护隐私的同时,优先选择与私有数据高度相似的合成数据。最后,PCEvolve利用这些高相似性的合成数据作为反馈,通过生成式API进一步优化合成数据集,以生成更高质量的合成数据。

PE中10-shot私有图像和100-shot合成图像的场景

资讯配图

本图展示了在PE算法中,当处理10-shot私有图像和100-shot合成图像时的情况。图中红色表示私有数据的投票,蓝色表示噪声。可以看到,由于私有数据样本数量较少,噪声超过了实际的投票数,导致相似性投票几乎随机化,从而影响了合成数据的质量。

PCEvolve算法的示意图

资讯配图

本图展示了PCEvolve算法的核心结构和流程。图中详细描述了PCEvolve如何通过聚合类别中心、应用对比滤波器(contrastive filter)、相似性校准器(similarity calibrator)以及指数机制(Exponential Mechanism)来选择高质量的原型合成数据(proto data),并将其作为反馈传递给生成式API,以迭代优化合成数据集。不同颜色表示不同的数据类别,图中还标注了各个步骤的具体操作,如“Agg”表示类别中心聚合,“Exp”表示应用指数机制。

不同K-shot私有数据对下游模型性能的影响

资讯配图

本图展示了在KVASIR-f数据集上,随着每类私有数据样本数量K的变化,不同方法对下游模型性能(以Top-1准确率衡量)的影响。图中可以看到,利用私有数据进行过滤或评估生成合成数据的方法(如RF、PE和PCEvolve)随着私有数据量的增加而性能提升更为明显,因为这些方法依赖于进化循环多次访问私有数据。而DPImg方法由于需要添加更多噪声以确保隐私,随着私有数据量的增加性能反而下降。

实验结果

资讯配图

本表展示了展示了在四个专业领域数据集(包括医疗和工业领域)上,不同方法生成的合成数据在下游任务中的性能表现,以 Top-1 准确率(%)作为评估指标。从表中可以看出,PCEvolve 在所有数据集上的表现均优于其他基线方法。例如,在 Came17 数据集上,PCEvolve 的 Top-1 准确率达到了 69.10%,比 PE 方法高出 5.44%。这表明 PCEvolve 在处理少样本私有数据时,能够更有效地生成高质量的合成数据,从而在下游任务中取得更好的性能。此外,PCEvolve 在不同数据集上的性能提升也体现了其在不同专业领域的适用性和鲁棒性。总之,通过对比不同方法在多个专业领域数据集上的性能,突出了 PCEvolve 在少样本私有数据场景下生成高质量合成数据的能力,以及其在隐私保护和数据效用之间的良好平衡。

-- END --


最后对AI安全和伦理感兴趣的可公众号后台私信‘加群’或者扫描下方👇二维码进入AI安全和伦理交流群!
资讯配图

关注“学姐带你玩AI”公众号,回复“2025大模型

领取2025大模型创新方案合集+开源代码

往期推荐:





如何给大模型喂时序数据?基于LLMs的时间序列预测5大方法汇总


强化学习+大模型轻松发顶会!不要光想着LLM,OpenAI o1这样做才是对的


时间序列+预训练大模型!最新开源成果性能暴涨42.8%


结合创新!高性能小模型+热门大模型=王炸,8种策略教你拿下顶会顶刊!


完美融合!LLM大模型x知识图谱2024最新SOTA!(附代码)



ACCEPT
据说点赞的都Accept了!
资讯配图

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
IC
more
原大疆 Mavic 3 产品经理李进吉创业,瞄准影像眼镜赛道
Anthropic突然封锁中国企业,我们该从中学到什么?
融资130亿,估值1.3万亿,硅谷AI新贵Anthropic凭什么比波音还贵?
SiC价格史上首次低于IGBT!功率半导体大厂中报发生了哪些变化?
从「会说」迈向「会做」,LLM下半场:Agentic强化学习范式综述
【源头活水】ICCV 2025 | 清华等提出YOLO-Count:让AI“心中有数”,可微分“对象计数”精准控制图像生成
ICCV 2025 | 基于时序增强关系敏感知识迁移的弱监督动态场景图生成
ICCV`25 | 把DragDiffusion“卷”哭了:速度快600倍,效果更精准!港大开源Inpaint4Drag
【模拟 IC 高薪热招】射频 / 音频 / 电源 / 电机驱动等多岗位急聘
为规避欧盟处罚,微软拟计划将Teams从Office套件中剥离 | 区势·Big Tech
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号