效率超FlowGRPO 25倍!清华&英伟达开源DiffusionNFT:实现扩散模型强化学习大一统

AI生成未来 2025-09-24 07:30
点击下方卡片,关注“AI生成未来

如您有工作需要分享,欢迎联系:aigc_to_future

作者:Kaiwen Zheng等

解读:AI生成未来

资讯配图

论文链接:https://arxiv.org/pdf/2509.16117
Git链接:https://research.nvidia.com/labs/dir/DiffusionNFT/

资讯配图
DiffusionNFT 的性能。(a)在 GenEval 任务上与 FlowGRPO 的头对头比较。(b)通过采用多种奖励模型,DiffusionNFT显著提高了SD3.5-Medium 在每个测试基准测试中的性能,同时完全无需 CFG

亮点直击

  • 一种新的在线强化学习(RL)范式:扩散负面感知微调(DiffusionNFT)。DiffusionNFT 并不基于策略梯度框架,而是通过流匹配目标直接在前向扩散过程中进行策略优化。
  • 通过在多个奖励模型上对 SD3.5-Medium进行后训练来评估 DiffusionNFT。整个训练过程刻意在无 CFG 的环境中进行。尽管这导致初始性能显著降低,但 DiffusionNFT 在域内和域外奖励上显著提高了性能,迅速超越 CFG 和 GRPO 基线。
  • 在单一奖励设置中与 FlowGRPO 对比。四个任务中,DiffusionNFT 一直表现出 3 倍到 25 倍的效率,并取得更好的最终得分。

总结速览

解决的问题

  • 在线强化学习(RL)在扩散模型中的应用面临挑战,主要由于难以处理的似然性。
  • 现有方法如离散化反向采样过程存在求解器限制、前向-反向不一致性,以及与无分类器引导(CFG)的复杂整合。

提出的方案

  • 引入扩散负面感知微调(DiffusionNFT),一种新的在线RL范式,通过流匹配直接在前向过程中优化扩散模型。
  • DiffusionNFT 通过对比正负生成来定义隐式的策略改进方向,将强化信号自然融入监督学习目标中。

应用的技术

  • 使用流匹配目标进行策略优化,而非传统的策略梯度框架。
  • 允许使用任意黑箱求解器进行训练,消除对似然性估计的需求。
  • 采用隐式参数化技术,整合强化引导到优化策略中。
  • 仅需干净的图像用于策略优化,而不需存储整个采样轨迹。

达到的效果

  • DiffusionNFT 的效率比 FlowGRPO 高达 25 倍,并且无需使用 CFG。
  • 在多个基准测试中显著提升了 SD3.5-Medium 的性能。
  • 例如,在 1000 步内将 GenEval 得分从 0.24 提高到 0.98,而 FlowGRPO 在超过 5000 步和额外的 CFG 使用下仅达到 0.95。
  • 证明了在无 CFG 环境中,DiffusionNFT 在域内和域外奖励上显著提高了性能。

扩散强化通过负面感知微调

问题设置

在线强化学习。 考虑一个预训练的扩散策略  和提示数据集 。在每次迭代中,本文为提示  采样  张图像 ,然后使用标量奖励函数  评估每张图像,该函数表示其最优概率 。收集的数据可以随机分成两个假想的子集。一张图像  以概率  落入正样本集 ,否则落入负样本集 。在无限样本情况下,这两个子集的基础分布分别是:

资讯配图
资讯配图

强化学习要求在每次迭代中执行策略改进。优化后的策略  满足:资讯配图

正数据上的策略改进。 很容易证明  始终成立,因此对  的直接改进可以是 。为了实现这一点,之前的工作(Lee et al., 2023)仅在  上进行扩散训练,这被称为拒绝微调(Rejection FineTuning, RFT)。尽管简单,RFT 无法有效利用  中的负面数据(Chen et al., 2025c)。强化引导。本文认为负面反馈对策略改进至关重要。与其将  视为优化点,本文利用负面和正面数据来推导改进方向 。训练目标定义为

资讯配图

其中, 是扩散模型的速度预测器, 是一个超参数。这个定义在形式上类似于无分类器指导(Classifier-Free Guidance, CFG)(Ho & Salimans, 2022)等扩散指导。本文将  称为强化指导,而  为指导强度。

下面本文解决了两个挑战:1. 什么形式的  能够实现策略改进?2. 如何利用收集的数据集  和  直接优化 

带有前向过程的负面感知扩散强化

在公式 (3) 中, 对应于改进策略与原始策略之间的分布性转变。为了形式化这一点,本文首先研究  之间的分布差异。

定理 3.1(改进方向)。考虑策略三元组  和  的扩散模型  和 。这些模型之间的方向性差异是成比例的:

资讯配图

其中, 是一个标量系数:

资讯配图

方程 (4) 表示一个理想的指导方向 ,用于改进 。通过适当的指导强度,可以保证策略改进。例如,令  在方程 (3) 中,本文有 ,使得  成立。下图 3 包含了改进方向  的示意图。在用方程 (3) 和 (4) 定义了一个有效的优化目标  之后,本文现在引入一个训练目标,直接优化  向 

资讯配图

定理 3.2(策略优化)。考虑训练目标:

资讯配图

其中资讯配图

在数据和模型容量无限的情况下,方程 (5) 的最优解满足

资讯配图

定理 3.2 提出了一个新的离策略强化学习(RL)范式(图 4)。它不使用策略梯度,而是采用监督学习(SL)目标,并额外在在线负面数据  上进行训练。这使得该算法高度通用,兼容现有的 SL 方法。本文将这种方法称为扩散负面感知微调(DiffusionNFT),强调其负面感知 SL 的特性,并与语言模型中的平行算法 NFT 概念相似。下面,本文讨论 DiffusionNFT 的几个独特优势。

资讯配图

1. 前向一致性。 与在反向扩散过程中构建 RL 的策略梯度方法(例如,FlowGRPO)不同,DiffusionNFT 在前向过程中定义了一个典型的扩散损失。这保留了本文称之为前向一致性的特性,即扩散模型底层概率密度对 Fokker-Planck 方程的遵从性,确保所学习的模型对应于一个有效的前向过程,而不是退化为级联高斯分布。

2. 求解器灵活性。 DiffusionNFT 完全解耦了策略训练和数据采样。这使得在整个采样过程中可以充分利用任何黑箱求解器,而不是依赖于一阶随机微分方程(SDE)采样器。它还消除了在数据收集过程中存储整个采样轨迹的需要,只需要用于训练的干净图像及其相关的奖励。

3. 隐式指导整合。 直观地说,DiffusionNFT 定义了一个指导方向  并将其应用于旧的策略 (方程 (6))。然而,它并不是学习一个独立的指导模型  并采用指导采样,而是采用一种隐式参数化技术,使得强化指导可以直接整合到学习的策略中。这种技术受到最近无指导训练进展的启发,允许本文在单一策略模型上持续进行 RL,这对于在线强化至关重要。

4. 无需似然性公式。 以前的扩散 RL 方法在本质上受到其对似然性近似的限制。无论是通过变分界限近似边际数据似然并应用 Jensen 不等式以降低损失计算成本,还是离散化反向过程以估计序列似然,它们不可避免地在扩散后训练中引入系统性估计偏差。相比之下,DiffusionNFT 本质上是无需似然性的,避开了这些妥协。

实现

本文在算法 1 中提供了 DiffusionNFT 的伪代码。

资讯配图下面,本文详细说明关键的设计选择。

最优性奖励。 在大多数视觉强化环境中,奖励表现为不受约束的连续标量,而非二元最优性信号。受现有 GRPO 实践的启发,本文首先将原始奖励  转换为 ,它代表最优性概率:

资讯配图

 是某个归一化因子,可以采用全局奖励标准差的形式。本文在数据收集期间为每个提示  采样  张图像,因此可以估计每个提示的平均奖励 

采样策略的软更新。 DiffusionNFT 的离策略性质将采样策略  与训练策略  分离。这消除了每次迭代后进行“硬”更新()的需要。相反,本文利用这一特性来采用“软”指数移动平均(EMA)更新:

资讯配图

其中, 是迭代次数。参数  调节学习速度与稳定性之间的权衡。严格的在策略方案()会带来快速的初始进展,但容易导致严重的不稳定性,进而导致灾难性的崩溃。相反,几乎离线的方法()具有稳健的稳定性,但收敛速度慢得不切实际(下图 8)。

资讯配图

自适应损失加权。 典型的扩散损失包括时间依赖的加权 (公式 (1))。本文采用自适应加权方案,而不是手动调整。速度预测器  可以等效地转换为  预测器,记为 (例如,在校正流动调度下,)。本文用一种自归一化的  回归形式替代加权:

资讯配图其中, 是停止梯度算子。本文发现这提供了稳定的训练(下图 9)。

资讯配图

无 CFG 优化。 无分类器引导(CFG)是提高推理时生成质量的默认技术,但它使得训练后处理复杂化并降低效率。从概念上讲,本文将 CFG 解释为一种离线形式的强化引导(公式 (4)),其中条件和无条件模型对应于正负信号。在这种理解下,本文在算法设计中舍弃了 CFG。策略仅由条件模型初始化。尽管这种初始化看似不佳,本文观察到性能激增并迅速超越 CFG 基线(下图 1)。这表明 CFG 的功能可以通过训练后强化学习有效地学习或替代,呼应了最近的研究,这些研究在训练后不使用 CFG 也能取得强劲的性能。

资讯配图

实验

本文从三个角度展示 DiffusionNFT 的潜力:(1)多奖励联合训练以实现强大的无 CFG 性能,(2)与 FlowGRPO 在单一奖励上的正面对比,以及(3)关键设计选择的消融研究。

实验设置

本文的实验基于 SD3.5-Medium,分辨率为 512×512,大多数设置与 FlowGRPO 一致。

奖励模型。 (1)基于规则的奖励,包括用于组合图像生成的 GenEval  和用于视觉文本渲染的 OCR,其中部分奖励分配策略遵循 FlowGRPO。(2)基于模型的奖励,包括 PickScore  、ClipScore、HPSv2.1 、Aesthetics、ImageReward   和 UnifiedReward,用于衡量图像质量、图像-文本对齐和人类偏好。

提示数据集。 对于 GenEval 和 OCR,本文使用 FlowGRPO 的相应训练和测试集。对于其他奖励,本文在 Pick-a-Pic 上训练,并在 DrawBench 上评估。

训练和评估。 本文使用 LoRA 进行微调()。每个 epoch 包含 48 组,组大小为 。本文使用 10 步采样进行正面对比和消融研究,而在多奖励训练中使用 40 步以获得最佳视觉质量。评估使用 40 步一阶 ODE 采样器进行。

多奖励联合训练

本文首先评估 DiffusionNFT 在全面增强基础模型方面的有效性。从无 CFG 的 SD3.5-M(25 亿参数)开始,本文联合优化五个奖励:GenEval、OCR、PickScore、ClipScore 和 HPSv2.1。由于奖励基于不同的提示,本文首先在 Pick-a-Pic 上使用基于模型的奖励进行训练,以增强对齐和人类偏好,然后是基于规则的奖励(GenEval,OCR)。在域外评估中,本文使用 Aesthetics、ImageReward 和 UnifiedReward。

如下表 1 所示,本文最终的无 CFG 模型不仅在域内和域外指标上超越了 CFG,并且匹配仅适用于单一奖励的 FlowGRPO,还优于基于 CFG 的更大模型,如 SD3.5-L(80 亿参数)和 FLUX.1-Dev(120 亿参数)。下图 5 中的定性比较展示了本文方法的卓越视觉质量。

资讯配图
资讯配图

正面对比

本文与 FlowGRPO 在单一训练奖励上进行正面对比。如上图 1(a) 和下图 6 所示,本文方法在挂钟时间方面效率提高了 3 到 25 倍,仅需约 1000 次迭代即可实现 GenEval 得分 0.98。这表明在本文的框架下,无 CFG 模型可以快速适应特定的奖励环境。

资讯配图

消融实验

本文分析了核心设计选择的影响:

负损失。 负面感知组件在 DiffusionNFT 中至关重要。没有对  的负策略损失,发现奖励几乎在在线训练中瞬间崩溃,这突显了负信号在扩散 RL 中的关键作用。这一现象与 LLMs 中的观察结果不同,在 LLMs 中,RFT 仍然是一个强有力的基线。

扩散采样器。 DiffusionNFT 中的在线样本既用于奖励评估,也用作训练数据,因此质量至关重要。下图 7 显示 ODE 采样器优于 SDE 采样器,尤其是在对噪声敏感的 PickScore 上。二阶 ODE 在 GenEval 上略优于一阶 ODE,而在 PickScore 上表现相当。

资讯配图

自适应加权。 本文发现,当流匹配损失在较大  时被赋予更高权重时,稳定性提高,而反向策略(例如,)则导致崩溃(上图 9)。本文的自适应计划始终与或超过启发式选择相匹配。

软更新。 本文在上图 8 中比较了不同的  计划的软更新。完全在策略()加速了早期进展,但会使训练不稳定,而过于离策略()则减慢了收敛速度。本文发现,从小  开始并在后期逐渐增加到较大值,在收敛速度和训练稳定性之间取得了有效的平衡。

引导强度。 如下图 10 所示,引导参数  也调节了稳定性和收敛速度之间的权衡。本文发现  接近 1 时表现稳定,并在实践中选择  为 1 或 0.1(用于更快的奖励增加)。

资讯配图

结论

Diffusion Negative-aware FineTuning(DiffusionNFT),这是一种用于扩散模型在线强化学习的新范式,直接作用于前向过程。通过将策略改进表述为正负生成之间的对比,DiffusionNFT 无缝地将强化信号整合到标准扩散目标中,消除了对似然估计和基于 SDE 的反向过程的依赖。实证上,DiffusionNFT 展示了强大且高效的奖励优化,效率比 FlowGRPO 高达 25 倍,同时生成单一的全能模型,在各种域内和域外奖励上超过 CFG 基线。相信这项工作代表了在扩散中统一监督学习和强化学习的一步,并突出了前向过程作为可扩展、高效且理论上有原则的扩散 RL 的有前途的基础。

参考文献

[1] DIFFUSIONNFT: ONLINE DIFFUSION REINFORCEMENT WITH FORWARD PROCESS

致谢

如果您觉得这篇文章对你有帮助或启发,请不吝点赞、在看、转发,让更多人受益。同时,欢迎给个星标⭐,以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进,共同探索未知,见证一个充满希望和伟大的未来!



技术交流

加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!

资讯配图

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
开源 英伟达
more
Nano Banana不及格,开源模型一分难求!上海AI Lab新基准直击文生图模型痛点
阿里云容器服务覆盖AI全流程,团队透露:OpenAI训练GPT时就用了我们的开源能力
京东AI一揽子开源!超多核心项目全开源,GitHub万star项目也有新进展了
集合通信库VCCL释放GPU极致算力,创智、基流、智谱、联通、北航、清华、东南重磅开源
智元机器人GO-1通用具身基座大模型开源:向全球免费开放!
远超SOTA稠密SLAM!清华开源SLAM-Former:集成SLAM到一个Transformer中
超强开源模型Qwen3、DeepSeek-V3.1,都被云计算一哥「收」了
快讯|宇树机器人“围殴”测试展硬实力;Optimus AI灵魂人物接连出走;智元机器人GO - 1通用具身基座大模型全面开源
中国AI高速路,华为给出开源开放方案
阿里Qwen3-Omni开源发布,重新定义多模态,继GPT-4o之后,真正的全能AI来了?
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号