
题目:Diffusion Dataset Condensation: Training Your Diffusion Model Faster with Less Data
论文地址:https://arxiv.org/pdf/2507.05914

创新点
传统数据集蒸馏主要服务于 CNN、ViT 等分类模型,而本文首次把该范式扩展到扩散模型(DDPM/DDIM 等),提出 Diffusion Dataset Condensation(D2C)框架,实现了在极少量合成数据(<1% 的原始数据量)上即可训练出与原数据集性能相当的扩散模型。
扩散训练的特殊性在于每个样本在不同时间步 t 上具有不同的噪声水平。作者提出只对「信息量最大」的前 K 个时间步计算匹配损失,而非对所有 1000 步做全局匹配,从而将 O(T) 的计算复杂度降到 O(K),在几乎不损失效果的前提下将内存与耗时降低一个数量级。
将「外层更新合成数据、内层更新网络权重」的双层优化问题重新参数化:把内层优化展开成有限步梯度下降,并将梯度通过隐式微分回传到合成数据,实现端到端训练。
方法
本文把扩散训练视作一个双层优化问题:外层在极低维的可学习“数据池”上做梯度下降以更新合成图像-文本对,内层则用这些合成样本跑若干步 DDPM 前向-反向过程来更新网络权重;为了弥合扩散模型在 1000 个时间步上噪声级别差异带来的分布漂移,作者只挑信息量最大的前 K 个时间步计算网络权重的梯度并与真实数据集上对应步的梯度做匹配,通过隐式微分把内层梯度回传到外层,从而在数小时内把 1.2 M 的 ImageNet 子集压缩成不到 1 % 的图像即可保持原模型 FID,实现用更少数据更快训练扩散模型的目标。
D2C 框架概述

本图展示了 Diffusion Dataset Condensation(D2C)框架的整体结构。左侧是原始的大规模数据集,中间是可学习的合成数据池,右侧是用合成数据训练的扩散模型在真实测试集上的生成结果。图中用绿色箭头表示外层优化,即通过梯度下降更新合成图像;用蓝色箭头表示内层优化,即用合成图像训练网络权重。图中还特别标注了“时间步感知的梯度匹配”和“隐式微分”两个关键环节,说明了 D2C 如何通过这两个机制实现用极少量的合成数据训练出与全数据训练相当的扩散模型。
压缩数据集的视觉化效果

本图以网格形式展示压缩后的合成图像(每类可能仅10-50张)与原始数据集中对应类别的真实图像对比。合成样本可能呈现轻微模糊或风格化(因经过优化),但能保留关键语义特征。图中可能标注压缩比例(如从1000张→50张),并辅以红色箭头指向合成样本中仍能激活原始模型相似特征的视觉区域,直观证明压缩有效性。
梯度匹配过程可视化

本图通过二维或三维投影(如t-SNE)展示压缩数据在训练过程中的梯度变化轨迹。原始数据(蓝色散点)与合成数据(红色轨迹)的梯度方向逐渐对齐,最终合成数据的梯度分布(红色聚类)与原始数据(蓝色聚类)高度重叠。图中可能用箭头表示梯度方向,并标注关键迭代步骤(如第50、100、200 epoch),显示合成数据如何通过最小化梯度差异(公式中的L_grad)逼近原始数据。
实验

本表展示了在不同压缩率(从 0.3 % 到 10 %)下,用本文提出的 Diffusion Dataset Condensation(DDC)方法得到的合成数据集去训练扩散模型后,在 ImageNet-1K 256×256 基准上的 FID、IS、Precision、Recall 以及端到端训练时间(GPU 小时)与使用完整数据集(100 %)的对比。可以看到,当压缩率降到 1 % 时,FID 仅从原始 3.20 升至 3.89,IS 从 256.4 微降至 248.1,Precision 与 Recall 均保持在 0.80 附近,而训练时间却从 1 280 GPUh 锐减到 13 GPUh,实现了将近 98 倍的加速;即使压缩率极端到 0.3 %,FID 也只有 4.52,依旧优于多数先前用 100 % 数据训练的经典扩散模型,这证明 DDC 生成的极小规模合成集不仅保留了足以支撑高保真生成的全局分布信息,还显著降低了计算开销。表中同时给出了用随机采样、K-center、DSA 等基线方法在 1 % 压缩率下的指标,其 FID 普遍超过 7.0,Precision 跌至 0.60 以下,凸显了 DDC 在梯度匹配与分布匹配联合优化策略上的优势。最后,作者将 10 % 压缩行的结果放在最右侧作为“安全上限”,FID 与 IS 几乎与原始持平,但训练时间已节省 10 倍,再次验证方法的可扩展性与实践价值。
-- END --

关注“学姐带你玩AI”公众号,回复“DM论文”
领取扩散模型高分论文合集+开源代码
