如您有工作需要分享,欢迎联系:aigc_to_future
作者:Kaiwen Zheng等
解读:AI生成未来

论文链接:https://arxiv.org/pdf/2509.16117
Git链接:https://research.nvidia.com/labs/dir/DiffusionNFT/

亮点直击
一种新的在线强化学习(RL)范式:扩散负面感知微调(DiffusionNFT)。DiffusionNFT 并不基于策略梯度框架,而是通过流匹配目标直接在前向扩散过程中进行策略优化。 通过在多个奖励模型上对 SD3.5-Medium进行后训练来评估 DiffusionNFT。整个训练过程刻意在无 CFG 的环境中进行。尽管这导致初始性能显著降低,但 DiffusionNFT 在域内和域外奖励上显著提高了性能,迅速超越 CFG 和 GRPO 基线。 在单一奖励设置中与 FlowGRPO 对比。四个任务中,DiffusionNFT 一直表现出 3 倍到 25 倍的效率,并取得更好的最终得分。
总结速览
解决的问题
在线强化学习(RL)在扩散模型中的应用面临挑战,主要由于难以处理的似然性。 现有方法如离散化反向采样过程存在求解器限制、前向-反向不一致性,以及与无分类器引导(CFG)的复杂整合。
提出的方案
引入扩散负面感知微调(DiffusionNFT),一种新的在线RL范式,通过流匹配直接在前向过程中优化扩散模型。 DiffusionNFT 通过对比正负生成来定义隐式的策略改进方向,将强化信号自然融入监督学习目标中。
应用的技术
使用流匹配目标进行策略优化,而非传统的策略梯度框架。 允许使用任意黑箱求解器进行训练,消除对似然性估计的需求。 采用隐式参数化技术,整合强化引导到优化策略中。 仅需干净的图像用于策略优化,而不需存储整个采样轨迹。
达到的效果
DiffusionNFT 的效率比 FlowGRPO 高达 25 倍,并且无需使用 CFG。 在多个基准测试中显著提升了 SD3.5-Medium 的性能。 例如,在 1000 步内将 GenEval 得分从 0.24 提高到 0.98,而 FlowGRPO 在超过 5000 步和额外的 CFG 使用下仅达到 0.95。 证明了在无 CFG 环境中,DiffusionNFT 在域内和域外奖励上显著提高了性能。
扩散强化通过负面感知微调
问题设置
在线强化学习。 考虑一个预训练的扩散策略 和提示数据集 。在每次迭代中,本文为提示 采样 张图像 ,然后使用标量奖励函数 评估每张图像,该函数表示其最优概率 。收集的数据可以随机分成两个假想的子集。一张图像 以概率 落入正样本集 ,否则落入负样本集 。在无限样本情况下,这两个子集的基础分布分别是:


强化学习要求在每次迭代中执行策略改进。优化后的策略 满足:
正数据上的策略改进。 很容易证明 始终成立,因此对 的直接改进可以是 。为了实现这一点,之前的工作(Lee et al., 2023)仅在 上进行扩散训练,这被称为拒绝微调(Rejection FineTuning, RFT)。尽管简单,RFT 无法有效利用 中的负面数据(Chen et al., 2025c)。强化引导。本文认为负面反馈对策略改进至关重要。与其将 视为优化点,本文利用负面和正面数据来推导改进方向 。训练目标定义为

其中, 是扩散模型的速度预测器, 是一个超参数。这个定义在形式上类似于无分类器指导(Classifier-Free Guidance, CFG)(Ho & Salimans, 2022)等扩散指导。本文将 称为强化指导,而 为指导强度。
下面本文解决了两个挑战:1. 什么形式的 能够实现策略改进?2. 如何利用收集的数据集 和 直接优化 ?
带有前向过程的负面感知扩散强化
在公式 (3) 中, 对应于改进策略与原始策略之间的分布性转变。为了形式化这一点,本文首先研究 之间的分布差异。
定理 3.1(改进方向)。考虑策略三元组 、 和 的扩散模型 、 和 。这些模型之间的方向性差异是成比例的:

其中, 是一个标量系数:

方程 (4) 表示一个理想的指导方向 ,用于改进 。通过适当的指导强度,可以保证策略改进。例如,令 在方程 (3) 中,本文有 ,使得 成立。下图 3 包含了改进方向 的示意图。在用方程 (3) 和 (4) 定义了一个有效的优化目标 之后,本文现在引入一个训练目标,直接优化 向 :

定理 3.2(策略优化)。考虑训练目标:

其中
在数据和模型容量无限的情况下,方程 (5) 的最优解满足

定理 3.2 提出了一个新的离策略强化学习(RL)范式(图 4)。它不使用策略梯度,而是采用监督学习(SL)目标,并额外在在线负面数据 上进行训练。这使得该算法高度通用,兼容现有的 SL 方法。本文将这种方法称为扩散负面感知微调(DiffusionNFT),强调其负面感知 SL 的特性,并与语言模型中的平行算法 NFT 概念相似。下面,本文讨论 DiffusionNFT 的几个独特优势。

1. 前向一致性。 与在反向扩散过程中构建 RL 的策略梯度方法(例如,FlowGRPO)不同,DiffusionNFT 在前向过程中定义了一个典型的扩散损失。这保留了本文称之为前向一致性的特性,即扩散模型底层概率密度对 Fokker-Planck 方程的遵从性,确保所学习的模型对应于一个有效的前向过程,而不是退化为级联高斯分布。
2. 求解器灵活性。 DiffusionNFT 完全解耦了策略训练和数据采样。这使得在整个采样过程中可以充分利用任何黑箱求解器,而不是依赖于一阶随机微分方程(SDE)采样器。它还消除了在数据收集过程中存储整个采样轨迹的需要,只需要用于训练的干净图像及其相关的奖励。
3. 隐式指导整合。 直观地说,DiffusionNFT 定义了一个指导方向 并将其应用于旧的策略 (方程 (6))。然而,它并不是学习一个独立的指导模型 并采用指导采样,而是采用一种隐式参数化技术,使得强化指导可以直接整合到学习的策略中。这种技术受到最近无指导训练进展的启发,允许本文在单一策略模型上持续进行 RL,这对于在线强化至关重要。
4. 无需似然性公式。 以前的扩散 RL 方法在本质上受到其对似然性近似的限制。无论是通过变分界限近似边际数据似然并应用 Jensen 不等式以降低损失计算成本,还是离散化反向过程以估计序列似然,它们不可避免地在扩散后训练中引入系统性估计偏差。相比之下,DiffusionNFT 本质上是无需似然性的,避开了这些妥协。
实现
本文在算法 1 中提供了 DiffusionNFT 的伪代码。
下面,本文详细说明关键的设计选择。
最优性奖励。 在大多数视觉强化环境中,奖励表现为不受约束的连续标量,而非二元最优性信号。受现有 GRPO 实践的启发,本文首先将原始奖励 转换为 ,它代表最优性概率:

是某个归一化因子,可以采用全局奖励标准差的形式。本文在数据收集期间为每个提示 采样 张图像,因此可以估计每个提示的平均奖励 。
采样策略的软更新。 DiffusionNFT 的离策略性质将采样策略 与训练策略 分离。这消除了每次迭代后进行“硬”更新()的需要。相反,本文利用这一特性来采用“软”指数移动平均(EMA)更新:

其中, 是迭代次数。参数 调节学习速度与稳定性之间的权衡。严格的在策略方案()会带来快速的初始进展,但容易导致严重的不稳定性,进而导致灾难性的崩溃。相反,几乎离线的方法()具有稳健的稳定性,但收敛速度慢得不切实际(下图 8)。

自适应损失加权。 典型的扩散损失包括时间依赖的加权 (公式 (1))。本文采用自适应加权方案,而不是手动调整。速度预测器 可以等效地转换为 预测器,记为 (例如,在校正流动调度下,)。本文用一种自归一化的 回归形式替代加权:
其中, 是停止梯度算子。本文发现这提供了稳定的训练(下图 9)。

无 CFG 优化。 无分类器引导(CFG)是提高推理时生成质量的默认技术,但它使得训练后处理复杂化并降低效率。从概念上讲,本文将 CFG 解释为一种离线形式的强化引导(公式 (4)),其中条件和无条件模型对应于正负信号。在这种理解下,本文在算法设计中舍弃了 CFG。策略仅由条件模型初始化。尽管这种初始化看似不佳,本文观察到性能激增并迅速超越 CFG 基线(下图 1)。这表明 CFG 的功能可以通过训练后强化学习有效地学习或替代,呼应了最近的研究,这些研究在训练后不使用 CFG 也能取得强劲的性能。

实验
本文从三个角度展示 DiffusionNFT 的潜力:(1)多奖励联合训练以实现强大的无 CFG 性能,(2)与 FlowGRPO 在单一奖励上的正面对比,以及(3)关键设计选择的消融研究。
实验设置
本文的实验基于 SD3.5-Medium,分辨率为 512×512,大多数设置与 FlowGRPO 一致。
奖励模型。 (1)基于规则的奖励,包括用于组合图像生成的 GenEval 和用于视觉文本渲染的 OCR,其中部分奖励分配策略遵循 FlowGRPO。(2)基于模型的奖励,包括 PickScore 、ClipScore、HPSv2.1 、Aesthetics、ImageReward 和 UnifiedReward,用于衡量图像质量、图像-文本对齐和人类偏好。
提示数据集。 对于 GenEval 和 OCR,本文使用 FlowGRPO 的相应训练和测试集。对于其他奖励,本文在 Pick-a-Pic 上训练,并在 DrawBench 上评估。
训练和评估。 本文使用 LoRA 进行微调()。每个 epoch 包含 48 组,组大小为 。本文使用 10 步采样进行正面对比和消融研究,而在多奖励训练中使用 40 步以获得最佳视觉质量。评估使用 40 步一阶 ODE 采样器进行。
多奖励联合训练
本文首先评估 DiffusionNFT 在全面增强基础模型方面的有效性。从无 CFG 的 SD3.5-M(25 亿参数)开始,本文联合优化五个奖励:GenEval、OCR、PickScore、ClipScore 和 HPSv2.1。由于奖励基于不同的提示,本文首先在 Pick-a-Pic 上使用基于模型的奖励进行训练,以增强对齐和人类偏好,然后是基于规则的奖励(GenEval,OCR)。在域外评估中,本文使用 Aesthetics、ImageReward 和 UnifiedReward。
如下表 1 所示,本文最终的无 CFG 模型不仅在域内和域外指标上超越了 CFG,并且匹配仅适用于单一奖励的 FlowGRPO,还优于基于 CFG 的更大模型,如 SD3.5-L(80 亿参数)和 FLUX.1-Dev(120 亿参数)。下图 5 中的定性比较展示了本文方法的卓越视觉质量。


正面对比
本文与 FlowGRPO 在单一训练奖励上进行正面对比。如上图 1(a) 和下图 6 所示,本文方法在挂钟时间方面效率提高了 3 到 25 倍,仅需约 1000 次迭代即可实现 GenEval 得分 0.98。这表明在本文的框架下,无 CFG 模型可以快速适应特定的奖励环境。

消融实验
本文分析了核心设计选择的影响:
负损失。 负面感知组件在 DiffusionNFT 中至关重要。没有对 的负策略损失,发现奖励几乎在在线训练中瞬间崩溃,这突显了负信号在扩散 RL 中的关键作用。这一现象与 LLMs 中的观察结果不同,在 LLMs 中,RFT 仍然是一个强有力的基线。
扩散采样器。 DiffusionNFT 中的在线样本既用于奖励评估,也用作训练数据,因此质量至关重要。下图 7 显示 ODE 采样器优于 SDE 采样器,尤其是在对噪声敏感的 PickScore 上。二阶 ODE 在 GenEval 上略优于一阶 ODE,而在 PickScore 上表现相当。

自适应加权。 本文发现,当流匹配损失在较大 时被赋予更高权重时,稳定性提高,而反向策略(例如,)则导致崩溃(上图 9)。本文的自适应计划始终与或超过启发式选择相匹配。
软更新。 本文在上图 8 中比较了不同的 计划的软更新。完全在策略()加速了早期进展,但会使训练不稳定,而过于离策略()则减慢了收敛速度。本文发现,从小 开始并在后期逐渐增加到较大值,在收敛速度和训练稳定性之间取得了有效的平衡。
引导强度。 如下图 10 所示,引导参数 也调节了稳定性和收敛速度之间的权衡。本文发现 接近 1 时表现稳定,并在实践中选择 为 1 或 0.1(用于更快的奖励增加)。

结论
Diffusion Negative-aware FineTuning(DiffusionNFT),这是一种用于扩散模型在线强化学习的新范式,直接作用于前向过程。通过将策略改进表述为正负生成之间的对比,DiffusionNFT 无缝地将强化信号整合到标准扩散目标中,消除了对似然估计和基于 SDE 的反向过程的依赖。实证上,DiffusionNFT 展示了强大且高效的奖励优化,效率比 FlowGRPO 高达 25 倍,同时生成单一的全能模型,在各种域内和域外奖励上超过 CFG 基线。相信这项工作代表了在扩散中统一监督学习和强化学习的一步,并突出了前向过程作为可扩展、高效且理论上有原则的扩散 RL 的有前途的基础。
参考文献
[1] DIFFUSIONNFT: ONLINE DIFFUSION REINFORCEMENT WITH FORWARD PROCESS
致谢
如果您觉得这篇文章对你有帮助或启发,请不吝点赞、在看、转发,让更多人受益。同时,欢迎给个星标⭐,以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进,共同探索未知,见证一个充满希望和伟大的未来!
技术交流
加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!
