DiffusionOPD:复旦联合通义万相提出扩散模型「在线策略蒸馏」新范式,让学⽣模型同时学会构图、⽂字与美学

机器之心 2026-05-29 16:06
DiffusionOPD:复旦联合通义万相提出扩散模型「在线策略蒸馏」新范式,让学⽣模型同时学会构图、⽂字与美学图1


扩散模型在单一任务上的强化学习已经取得了显著进展,例如提升文字生成质量、增强构图准确性,或优化画面美感等。但当这些能力需要同时集成到同一个模型中时,训练往往会变得十分困难:不同任务之间容易产生相互干扰,训练目标也会变得复杂而不稳定。


近期,来自复旦大学与阿里巴巴通义万相的研究团队对此提出了新的思考。他们认为,多任务强化学习不应被视为一个统一优化问题,而应该解耦为两个彼此独立的过程:单任务的在线策略探索 & 多任务能力整合。


基于这一观点,他们提出了 DiffusionOPD,为 diffusion 领域的 On-Policy Distillation 提供了一个统一视角,并建立了相应的理论与实验框架。


DiffusionOPD 的核心思路,是先针对不同任务分别训练各自的「专家教师」模型;随后,再通过在线策略蒸馏,将这些教师模型的能力统一蒸馏到同一个学生模型中,实现多任务能力整合。最终,一个统一的 student model 便能够同时兼顾构图、OCR、美学等多项能力。


DiffusionOPD:复旦联合通义万相提出扩散模型「在线策略蒸馏」新范式,让学⽣模型同时学会构图、⽂字与美学图2



多任务强化学习方法


过去常⻅的多任务强化学习⽅法主要有两类。


联合多任务 RL (Joint Multi-Task Optimization) :使用现有的 RL 算法例如 DiffusionNFT, GRPO 去联合优化多个任务。这种范式会撞上两个问题: 1 奖励冲突:不同任务的优化⽅向往往存在相互干扰; 2 任务失衡:简单任务会主导训练过程,导致复杂任务难以充分学习。


级联 RL (Cascade RL):按阶段依次训练不同任务。虽然能够缓解任务冲突,但是训练流程复杂,需要分别调整各阶段的超参数与训练策略,而且容易产生灾难性遗忘,后续任务训练的时候会削弱已有能力。


DiffusionOPD:复旦联合通义万相提出扩散模型「在线策略蒸馏」新范式,让学⽣模型同时学会构图、⽂字与美学图3

图 1:(a)相比所有多任务强化学习基线方法,DiffusionOPD 展现出显著更快的收敛速度以及更高的性能上限。(b)在包括 GenEval、OCR 与美学在内的多个任务领域中,DiffusionOPD 均优于所有基线方法。


DiffusionOPD: 单任务探索 + 多任务整合


DiffusionOPD 给出的答案⼲脆利落:多任务强化学习不应被视为一个统一优化问题,而应该解耦为两个彼此独立的过程:单任务的在线策略探索 & 多任务能力整合。


DiffusionOPD:复旦联合通义万相提出扩散模型「在线策略蒸馏」新范式,让学⽣模型同时学会构图、⽂字与美学图4


整体训练过程可分为两个阶段



Diffusion 领域 OPD 的⽬标函数推导


在 LLM 中,OPD 的做法很自然:学生模型先按照自己的策略生成 token,随后教师模型在学生访问到的每一个 token 状态上提供监督。由于语言模型本身是离散 token 分布,因此可以直接对每一步的 token distribution 做 KL 蒸馏。


但 diffusion model 不一样。它不是离散 token 序列,而是一个连续状态的去噪过程。


因此作者首先把 diffusion 的去噪过程重新视作一个 continuous-state Markov chain(连续状态马尔可夫链)。在这个视角下,每一步去噪 transition 都对应一个 Gaussian transition kernel;学生模型和教师模型分别定义自己的 transition distribution:


DiffusionOPD:复旦联合通义万相提出扩散模型「在线策略蒸馏」新范式,让学⽣模型同时学会构图、⽂字与美学图5


DiffusionOPD:复旦联合通义万相提出扩散模型「在线策略蒸馏」新范式,让学⽣模型同时学会构图、⽂字与美学图6


DiffusionOPD:复旦联合通义万相提出扩散模型「在线策略蒸馏」新范式,让学⽣模型同时学会构图、⽂字与美学图7


DiffusionOPD:复旦联合通义万相提出扩散模型「在线策略蒸馏」新范式,让学⽣模型同时学会构图、⽂字与美学图8


接着,论文进一步推导发现:由于 student 和 teacher 的 transition covariance 是相同的,于是整个扩散版 OPD ⽬标 reverse KL,就被写成了⼀个完全解析、⽆ Monte-Carlo ⽅差的均值匹配损失:


DiffusionOPD:复旦联合通义万相提出扩散模型「在线策略蒸馏」新范式,让学⽣模型同时学会构图、⽂字与美学图9


作者进一步指出这一框架同时统一了 stochastic SDE sampler 与 deterministic ODE sampler。在 ODE 情况下目标会退化成均值之间的 L2 匹配。


DiffusionOPD:复旦联合通义万相提出扩散模型「在线策略蒸馏」新范式,让学⽣模型同时学会构图、⽂字与美学图10


与 PPO-style policy gradient 的比较


另一个一非常自然的想法是:把老师当作「过程奖励模型」,把 KL 损失看作每一个去燥步的 dense reward 然后计算 advantage,最后套一个 PPO 的损失函数。


DiffusionOPD 论文里严格证明了直接闭式 KL 与 PPO -style policy gradient 在期望意义下梯度完全相等。但 PPO 的梯度里会多出一项 score-function 项,它与高斯噪声成正比,期望为零但方差不为零。也就是说,PPO 估计天然比闭式 KL 更「吵」。


DiffusionOPD:复旦联合通义万相提出扩散模型「在线策略蒸馏」新范式,让学⽣模型同时学会构图、⽂字与美学图11


DiffusionOPD:复旦联合通义万相提出扩散模型「在线策略蒸馏」新范式,让学⽣模型同时学会构图、⽂字与美学图12


更关键的是 PPO 形式离不开 logprob 与 ratio 的计算,因此它在 ODE 确定性采样器下根本无法定义,仅仅支持 SDE sampler。


实验结果


1.与多任务强化学习方法的对比


定量效果对比:


DiffusionOPD:复旦联合通义万相提出扩散模型「在线策略蒸馏」新范式,让学⽣模型同时学会构图、⽂字与美学图13


训练曲线对比:


DiffusionOPD:复旦联合通义万相提出扩散模型「在线策略蒸馏」新范式,让学⽣模型同时学会构图、⽂字与美学图14


定性效果对比:


DiffusionOPD:复旦联合通义万相提出扩散模型「在线策略蒸馏」新范式,让学⽣模型同时学会构图、⽂字与美学图15

图 2:与多任务强化学习方法以及单任务教师模型的定性对比结果。每个案例分为两行展示:第一行从左到右依次为 DiffusionOPD(本文方法)、Multi-Task GRPO-Guard、Multi-Task NFT 和 Cascade NFT;第二行从左到右依次为输入文本、Aesthetic Teacher、GenEval Teacher 和 OCR Teacher 的生成结果。


2.蒸馏方法消融:


作者还做了一组很有意义的对照实验:固定同一批专家老师,分别用 DiffusionOPD、DMD、TDM、SFT 蒸馏到同一个学生,控制变量后对比谁更适合「多任务能力整合」这个场景。


训练曲线对比:


DiffusionOPD:复旦联合通义万相提出扩散模型「在线策略蒸馏」新范式,让学⽣模型同时学会构图、⽂字与美学图16


曲线表示同样的老师、同样的采样设置,DiffusionOPD 在收敛速度和上限上都明显更好。


定性效果对比:


DiffusionOPD:复旦联合通义万相提出扩散模型「在线策略蒸馏」新范式,让学⽣模型同时学会构图、⽂字与美学图17

图 3:与不同蒸馏方法的定性对比结果。从左到右依次为:DiffusionOPD(本文方法)、DMD、TDM 和 SFT。


3.Loss 形式以及 Sampler Type 消融


DiffusionOPD:复旦联合通义万相提出扩散模型「在线策略蒸馏」新范式,让学⽣模型同时学会构图、⽂字与美学图18

图 6:关于损失函数形式与采样器噪声水平的消融实验。当噪声水平设为 0 时,SDE sampler 将退化为 ODE sampler。实验结果表明,PPO-style policy gradient 的表现逊于同样 noise level 的 closed-form KL objective;此外,更低的噪声水平能够带来更快的收敛速度和更高的性能上限。


DiffusionOPD:复旦联合通义万相提出扩散模型「在线策略蒸馏」新范式,让学⽣模型同时学会构图、⽂字与美学图19


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
more
消息称 iPad Air 明年将用上 OLED 屏幕,但仍有个遗憾
AI芯片新锐Cerebras重启IPO,2025年营收超5亿美元并获OpenAI、AWS大单
27日上会!长鑫科技冲刺科创板IPO最新进展
英集芯推出 140W 新国标移动电源SoC IP5381
SK海力士回应“员工人均奖金610万人民币”;多家车企辟谣“锁电”被约谈;曝iPhone18Pro灵动岛缩小25%;DeepSeek范围开放“识图模式”...
早报|SpaceX提交IPO文件;福建漳州泡药杨梅事件5人被刑拘;英伟达Q1净利583亿美元;三星电子工会已推迟罢工
帮乔布斯造iPhone的公司,成了AI基建的“救世主”
云深处递表IPO,拟募资25亿,2025年已扭亏为盈
iPhone钛机身还有希望?苹果继续“微调”外观
国产精密行星减速器龙头IPO获受理;具身智能企业获三菱电机连续领投 | 一周资本大事件
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号