如您有工作需要分享,欢迎联系:aigc_to_future
作者:Xiangwei Shen等
解读:AI生成未来

文章链接:https://arxiv.org/pdf/2509.06942
Git链接:https://github.com/Tencent-Hunyuan/SRPO
项目链接:https://tencent.github.io/srpo-project-page/
Huggingface: https://huggingface.co/tencent/SRPO
亮点直击
缓解奖励破解:所提出的框架有效缓解了奖励破解问题。具体而言,它消除了以往方法只能在扩散过程后期步骤进行训练的限制。此外,引入了语义相对偏好机制,通过使用正向和负向提示条件偏好评估每个样本,从而对奖励信号进行正则化。 在线奖励调整:将奖励信号重新表述为文本条件偏好,使得能够通过用户提供的提示词增强动态控制奖励模型。这种方法减少了对奖励系统或奖励模型微调的依赖,从而促进对下游任务需求更细粒度的适应。 SOTA性能:大量评估表明,本文的方法实现了最先进的结果。 效率突破:本文的方法在不需要额外数据的情况下,显著提升了大规模流匹配模型的真实感,仅需10分钟训练即可实现收敛。

总结速览
解决的问题
计算效率低下与优化不稳定: 现有基于人类偏好直接对齐扩散模型的方法依赖于多步去噪和梯度计算进行奖励评分,计算成本高昂。这迫使优化过程仅限于扩散过程的最后几个时间步,导致模型容易在后期时间步中出现“奖励破解”(Reward Hacking),即生成低质量图像却能获得高奖励分。 缺乏在线奖励调整机制: 现有方法需要昂贵的离线准备工作来微调奖励模型,以适应特定的审美需求(如照片真实感、精确光照)。它们缺乏一种能够根据动态需求进行在线、实时奖励调整的机制。
提出的方案
Direct-Align方法: 提出一种新方法,通过预先定义一个噪声先验,利用“扩散状态是噪声和目标图像之间的插值”这一数学特性,可以从任何时间步有效地通过插值恢复原始图像。这避免了在后期时间步中进行昂贵的多步去噪和梯度计算,从而防止了该阶段的过优化问题。 语义相对偏好优化(SRPO): 引入一种新的强化学习框架。其核心是将奖励视为文本条件信号,并通过正负提示词增强(Positive and Negative Prompt Augmentation) 来实现在线奖励调整。该方法使用同一样本在正负提示词下产生的奖励相对差值作为目标函数,有效过滤了与语义指导无关的信息,减少了奖励破解。
应用的技术
插值法图像恢复: 利用扩散模型的数学定义( x_t = interpolation(x_0, ε)
),通过预定义噪声直接从任意时间步t
插值回原始图像x_0
,替代传统的多步去噪过程。基于提示词增强的相对奖励: 对同一张生成的图片,使用一组预定义的正向关键词(如“逼真的”)和负向关键词(如“卡通化的”)来构建不同的文本条件,并计算两者奖励值的相对差异作为优化目标。这使奖励信号与人类语义偏好对齐,并允许在线调整。 在线强化学习微调: 将上述技术整合为一个高效的在线RL框架(SRPO),直接对扩散模型(文中以FLUX.1.dev为基础模型)进行微调,无需预先收集大量数据或离线微调奖励模型。
达到的效果
显著提升图像质量: 在人类评估中,相比基础的FLUX.1.dev模型,该方法在感知真实感上提升了约3.7倍,在审美质量上提升了约3.1倍。 极高的训练效率: 仅在HPDv2数据集上对FLUX.1.dev模型进行10分钟的SRPO训练,其性能即可在HPDv2基准测试中超越最新版的FLUX.1.Krea模型。 有效缓解奖励破解: 通过插值法和相对奖励优化,减少了对奖励模型已知偏见(如偏好特定颜色、曝光过度或缺乏细节的图像)的过拟合,生成了更高质量、更符合人类语义偏好的图像。
方法
本文介绍了一种新颖的文本到图像生成的在线强化学习框架。首先指出了当前直接反向传播方法的一个关键局限性,并介绍了一种改进的强化学习算法,该算法提出了一种新的优化流程来解决这些限制。随后,分析了现有的奖励反馈机制和一种在线奖励调整方法。接着提出了专门为强化学习优化设计的奖励公式。
Direct-Align
现有方法的局限性。现有的直接反向传播算法通过最大化生成样本上评估的奖励函数来优化扩散模型。当前方法通常采用两阶段过程:(1) 无梯度采样噪声以获得中间状态,随后(2) 进行可微分预测以生成图像。这使得来自奖励信号的梯度能够通过图像生成过程反向传播。这些方法的最终目标可分为两种类型。

DRaFT在整个过程中执行常规噪声采样,包括最后几个步骤甚至最后一步,因为如原工作所述,当步骤数超过五步时,多步采样会导致显著的计算成本和不稳定的训练。类似地,ReFL也在执行一步预测以获得之前选择较大的k值,因为一步预测在早期时间步往往失去准确性。这两种方法都将强化学习过程限制在采样的后期阶段。
单步图像恢复。为了解决上述限制,精确的单步预测至关重要。我们的关键洞察受到扩散模型中前向公式的启发,该公式表明可以直接从中间噪声图像和高斯噪声重建干净图像,如公式(4)所示。基于这一洞察,我们提出了一种方法:首先将真实高斯噪声先验注入图像中,将其置于特定时间步t以启动优化。这种方法的一个关键优势是存在一个闭式解,该解从公式4推导而来,可以直接从该噪声状态恢复干净图像。这种解析解避免了对迭代采样的需求,从而避免了其常见缺陷(如梯度爆炸),同时即使在早期高噪声时间步也能保持高精度(见下图3)。


如公式(2)-(5)所示,本文方法采用真实向量对扩散链的大部分进行去噪,从而减轻模型预测引入的误差累积。该策略在过程早期阶段促进了更精确的奖励分配。

奖励聚合框架。本文的框架(下图2)生成干净图像并在单步中注入噪声。为了增强稳定性,我们执行多次噪声注入,从同一生成图像序列。随后,我们对序列中的每个图像应用去噪和恢复过程,从而计算中间奖励。这些奖励然后通过梯度累积使用衰减折扣因子进行聚合,这有助于缓解后期时间步的奖励破解问题。


语义相对偏好优化
语义引导偏好。现代的文本到图像生成在线强化学习采用奖励模型来评估输出质量并指导优化。这些模型通常结合图像编码器和文本编码器来计算相似度,遵循CLIP架构。

在实验中,奖励可以被解释为一个由文本嵌入参数化的图像相关函数。关键的是,发现用魔法控制词策略性地增强提示可以通过修改语义嵌入来引导奖励特性,因此我们提出了语义引导偏好(SGP),通过文本条件来转移奖励偏好。

虽然这种方法能够实现可控偏好,但它仍然继承了原始奖励模型的偏差。为了解决这个限制,我们进一步提出了语义相对偏好机制。
语义相对偏好。现有方法通常结合多个奖励模型来防止对任何单一偏好信号的过拟合。虽然这可以平衡相反的偏差(例如,使用CLIPScore的曝光不足来抵消HPSv2.1的过饱和倾向)。如下图7所示,它仅仅调整奖励幅度而非对齐优化方向,导致妥协的权衡而非真正的偏差缓解。基于奖励偏差主要源自图像分支(因为文本分支不反向传播梯度)的洞察,引入了一种通过提示增强从单张图像生成一对相反奖励信号的技术,这有助于传播负梯度以实现有效正则化。该方法通过负梯度有效中和一般偏差,同时保留语义差异中的特定偏好。在实验中,为了平衡训练效率和正则化强度,可以对正向和负向奖励应用缩放系数。或者,奖励公式可以以类似于无分类器引导的方式设计。


其中代表期望属性(例如,逼真的),编码不需要的特征。该公式显式优化目标特征同时惩罚不良特征。在实现上,我们只需向提示添加控制短语(例如,<控制词>。<提示>),保持评分所需的语法结构,同时确保与现有方法的公平比较。
基于反转的正则化。与先前需要通过基于模型的预测进行图像重建的方法(因此只能沿去噪链进行优化)相比,我们提出的Direct-Align方法提供了一个关键特性。具体而言,Direct-Align通过预定的先验常数重建图像,从而将重建过程与计算图方向解耦。因此,本文的方法固有地支持反转方向的优化。我们简化了去噪过程(公式12)和反转过程(公式13)的奖励公式。因此,去噪过程执行梯度上升,从而使模型与奖励偏好的分布对齐,而反转过程执行梯度下降,产生相反的效果。

经验分析表明,奖励破解主要发生在高频时间步。通过采用反转机制,在不同时间步将惩罚项和奖励项从语义相对偏好中解耦,从而增强了优化过程的鲁棒性。
实验
实现细节
使用FLUX.1.dev作为基础模型评估在线强化学习算法,这是一个最先进的开源模型,以下简称为FLUX。所有方法都使用HPS(HPSv2.1的简称)作为奖励模型,并在Human Preference Dataset v2上训练,该数据集包含来自DiffusionDB的四个视觉概念。直接传播方法在32个NVIDIA H20 GPU上运行。对于DanceGRPO,遵循FLUX配置,使用16个NVIDIA H20 GPU。
对于直接传播方法,使用25个采样步长来保持梯度准确性。为避免高CFG尺度导致的过度平滑和伪影,将CFG尺度设置为3.5。在推理过程中,使用50个采样步长,以确保与原始FLUX.1.dev的公平比较。
还将Krea的最新开源FLUX.1版本与我们自己微调的FLUX.1.dev模型进行比较。对于Krea版本,使用其默认配置(CFG=4.5,28个采样步长)。
评估方案
自动指标。在HPDv2基准(3,200个提示)上使用既定指标评估图像质量。我们的评估结合了四个标准指标:Aesthetic Score v2.5、PickScore、ImageReward和HPSv2.1,这些指标共同评估美学质量和语义对齐。此外,我们引入了SGP-HPS,该指标使用HPSv2.1量化了以"真实照片"()和"CG渲染"()为前缀的提示从HPSv2.1提取的分数差异。为了进行全面评估,使用GenEval进行语义对齐评估,使用DeQA进行退化评估。
人类评估。进行了一项全面的人类评估研究,使用严格设计的评估框架比较生成模型。评估涉及10名训练有素的标注员和3名领域专家,以确保统计显著性和专业验证。我们的数据集包含500个提示(来自HPD基准中四个子类别的前125个提示)。每个提示由五名不同的标注员在完全交叉的实验设计中进行评估。评估重点关注图像质量的四个关键维度:(1) 文本-图像对齐(语义一致性),(2) 真实感和伪影存在,(3) 细节复杂性和丰富度,以及(4) 美学构图和吸引力。每个维度使用四级顺序量表进行评分:优秀(完全符合标准)、良好(轻微偏差)、及格(中等问题)和失败(显著缺陷)。为保持评估可靠性,我们实施了多阶段质量控制过程:(1) 专家培训和校准标注员,(2) 系统解决评分差异,以及(3) 持续验证评估标准。
主要结果
自动评估结果。本文的方法在使用HPSv2.1训练时展示了三个关键优势(下表1):(1) 对因过拟合导致的HPSv2.1分数膨胀具有免疫力,(2) 在多个奖励指标上相比SOTA方法具有卓越性能,(3) 训练效率比DanceGRPO高75倍,同时在图像质量上匹配或超越所有在线RL基线。

人类评估结果。本文的方法实现了最先进(SOTA)性能,如下图4所示。直接优化奖励偏好的方法(包括Direct-Align)在真实感方面表现欠佳,甚至由于奖励破解而低于基线FLUX模型。下图5展示了DanceGRPO与本文方法的视觉比较。完整的模型可视化结果见附录。虽然DanceGRPO可以改善美学质量并在强化学习后获得相对较高的分数,但常常引入不良伪影,例如过度光泽(第2行第1列)和明显的边缘高光(第2行第6列)。为了进一步验证真实感的增强,从基准数据集的照片类别中选择了前200个提示。我们通过在原始FLUX输入前添加真实感相关词语来增强这些提示。下图9(b)显示,主模型的直接生成显著优于涉及光照和真实感相关风格词的FLUX.1.dev。



相比之下,SRPO在真实感、美学和整体用户偏好方面显著改善了FLUX。据我们所知,这是第一种无需额外训练数据就能全面增强大规模扩散模型真实感的方法,将优秀率从8.2%提高到38.9%。此外,如图9(a)所示,我们通过SRPO增强的FLUX.1.dev在HPDv2基准测试中超越了最新的开源FLUX.1.krea。
奖励模型的比较分析
本文使用三种基于CLIP的奖励模型评估了本文的方法:CLIP ViT-H/14、PickScore和HPSv2.1,如下图6所示。本文的方法始终能增强所有模型的图像真实感和细节复杂性(包括CLIP),尽管由于CLIP缺乏人类偏好对齐,其改进仍然有限。值得注意的是,PickScore表现出比HPS更快更稳定的收敛性,而两者产生相当的视觉质量。关键的是,本文的方法中没有观察到奖励破解,这凸显了Direct-Align设计(图6(c))在将优化与奖励特定偏差解耦同时保持与用户目标对齐方面的有效性。此外,我们验证了本文的方法对单模态奖励(例如Aesthetic Score 2.5)的泛化能力,更多扩展讨论见附录。

分析
去噪效率。本文比较了先前方法中使用的标准一步采样生成的最终图像(直接利用模型预测)与我们方法在早期时间步生成的图像。如下图3所示,标准一步采样在去噪过程的大部分阶段仍然表现出明显的伪影。相比之下,主要依赖真实噪声进行预测的Direct-Align,即使在初始5%的时间步也能恢复图像的粗粒度结构,并在25%的时间步产生与原始图像几乎无法区分的结果。还研究了模型预测步骤在总去噪轨迹中所占比例的影响(如图中从0.075到0.025的两行所示)。我们的结果表明,预测步骤比例越短,最终图像质量越高。这些发现证明了Direct-Align在去噪过程早期阶段的优化能力。

优化时间步。本文使用Direct-Align(无后期时间步折扣)和PickScore比较了三个训练区间,如图7所示:早期(前25%噪声水平)、全部(整个训练区间)和晚期(最后25%噪声水平)。从HPD测试集中随机选择200个提示进行人类评估。标注员被问及:这三张图像中是否有任何一张显示破解伪影,例如过度饱和、过度平滑或缺乏图像细节?将最差的标记为被破解。我们观察到,仅在晚期区间训练会导致破解率显著增加,这可能是因为对PickScore偏好平滑图像的过拟合。当在整个区间训练时,破解率仍然相当高,因为该方案仍包含晚期时间步区域。
Direct-Align的有效性。Direct-Align的核心贡献在于其能够解决先前方法只能优化晚期时间步的限制。Direct-Align引入了两个关键组件:早期时间步优化和晚期时间步折扣。在前图9(d)中,对Direct-Align中的这些组件进行了消融研究。如公式2和公式5所示,移除早期时间步优化会使奖励结构类似于ReFL,导致真实感降低并增加奖励破解的脆弱性,例如过度饱和和视觉伪影。类似地,移除折扣会使模型容易发生奖励破解,导致过度饱和和不自然的纹理。这些发现证实了本文的方法在克服晚期时间步优化限制方面的重要性。图9(d)还比较了使用反转与直接构建奖励(如公式10)的效果。虽然直接构建产生的真实感和纹理复杂性略低于反转,但结果仍然具有竞争力。这些结果突显了SRPO奖励公式在未来其他无法支持反转或不可微分奖励的在线RL算法中的应用潜力。
细粒度人类偏好优化。SRPO的主要贡献在于其能够通过操纵控制词有效引导RL方向。通过涉及多样化控制词的全面实验,我们发现奖励训练集中频率较高的形容词,或那些更容易被其底层视觉语言模型(VLM)主干识别的形容词,表现出显著更强的可控性。HPDv2中高频词的详细统计信息见附录。下图8展示了在HPDv2和HPSv2.1上进行RL微调的简单控制,包括亮度调整(列1-3)以及将输出分布转换为漫画或概念艺术。对于奖励训练集中罕见或未见过的风格(例如文艺复兴),必须在推理时添加风格词才能正确生成。此外,由于我们的奖励基于图像-文本相似性,在HPD训练集前添加目标风格提示可以使RL增加训练图像中所需风格的出现,提高微调效率。为了定量评估,本文进行了一项用户研究,比较使用风格词训练前后的模型。对于用户研究,我们从照片类别中选择了前200个提示,因为这些提示简单且不包含明确的风格术语。每个提示前添加一个风格词,为每个提示生成两张图像。然后标注员评估每对图像对预期风格的遵循程度,在风格保真度相同的情况下,使用整体美学作为决胜标准。如图9(c)所示,本文的方法实现了更有效的风格控制,并提高了FLUX在某些风格上的性能。然而,改进程度取决于奖励模型识别特定风格术语的能力;对于赛博朋克风格,尽管SRPO增强了真实感和氛围(如图8列8所示),但其在训练数据中的相对低频使得奖励模型难以识别这种风格,导致网格状伪影。因此,人类评估的整体改进有限,大多数分数与原始FLUX相当。

离线SRPO。在实验中观察到Direct-Align表现出类似于监督微调(SFT)的特性,展示了拟合在线 rollout 图像的能力。基于这一发现,用离线真实世界照片替换了在线 rollout,这使FLUX模型的真实感得到了另一个显著提升。为了将本文的方法与纯SFT区分开来,我们使用原始CLIP奖励和人类偏好对齐奖励(如PickScore和HPSv2.1)进行测试。这一比较强调本文的方法是一种综合的强化学习方法,整合了数据拟合和人类偏好信号。支持性可视化结果可在附录的最后部分找到。
结论
本文提出了一种新颖的强化学习(RL)框架,用于将文本到图像(T2I)模型与细粒度人类偏好对齐,实现无需微调奖励的细粒度偏好调整。本文的方法解决了现有方法的两个主要限制。首先,克服了采样瓶颈,允许RL算法应用于清洁图像生成的后期阶段之外。其次,我们重新审视了奖励信号的设计,以实现更灵活有效的偏好调节。通过全面的实验评估,我们证明本文的方法在图像真实感和与人类审美偏好对齐方面优于最先进(SOTA)方法。与DanceGRPO相比,本框架实现了超过75倍的训练效率提升。此外,据我们所知,这是第一个系统增强大规模扩散模型真实感的工作。
局限性 & 未来工作
这项工作有两个主要局限性。首先,在可控性方面,我们的控制机制和某些控制令牌有些超出现有奖励模型的领域,这可能导致效果降低。其次,在可解释性方面,由于本文的方法依赖于隐空间中的相似性进行强化学习,一些控制文本的效果在经过编码器映射后可能与预期的RL方向不一致。
在未来的工作中,目标是(1)开发更系统的控制策略或引入可学习令牌,以及(2)微调一个明确响应控制词和提示系统的视觉语言模型(VLM)奖励。此外,SRPO框架可以扩展到其他在线强化学习算法。预计这些改进将进一步提升SRPO在实际应用中的可控性和泛化能力。
参考文献
[1] Directly Aligning the Full Diffusion Trajectory with Fine-Grained Human Preference
致谢
如果您觉得这篇文章对你有帮助或启发,请不吝点赞、在看、转发,让更多人受益。同时,欢迎给个星标⭐,以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进,共同探索未知,见证一个充满希望和伟大的未来!
技术交流
加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!
