腾讯混元团队 投稿
量子位 | 公众号 QbitAI
大语言模型的RL技术已日趋成熟,多模态生成模型的强化学习训练却仍在“各自为战”——图像扩散模型一套流程、视频生成另一套标准、VLM和LLM又有不同的技术栈。
这种技术栈的碎片化严重制约了AIGC模型的能力上限。
针对这个问题,腾讯混元庞天宇团队正式开源UniRL:一个面向统一多模态生成的分布式RL后训练框架。

该框架首次将扩散模型、自回归模型与生成理解统一模型的强化学习训练纳入同一套完整流程,为多模态模型强化学习迭代铺平了道路。
多模态RL的“孤岛困境”:AIGC训练基础设施的长期痛点
近年来,AIGC领域取得了巨大的发展,从Stable Diffusion到FLUX,从Wan到HunyuanVideo,生成模型的能力边界不断拓展。
然而,在模型能力快速迭代的背后,AIGC强化学习训练基础设施的缺失却成为了整个行业的痛点。与LLM的RL训练相比,多模态生成RL面临着四大难以逾越的技术挑战:
- 生成过程本质不同:
LLM RL主要处理离散token序列,而图像/视频生成对应连续潜空间中的去噪轨迹;统一多模态模型的一次rollout还会混合token生成与latent去噪,使credit assignment、log-prob计算与策略更新都更复杂。 - 系统闭环更难稳定:
rollout、log-prob replay与策略更新往往跨越多个模型和执行后端,训练侧必须严格复现采样侧的条件、噪声、时间步与轨迹信息,否则会产生Training-Inference Mismatch问题, 引入策略梯度bias,导致RL训练不稳定。 - 奖励系统更重:
多模态生成RL的reward往往依赖VLM、OCR、美学模型、视频理解模型,甚至多轮agent打分系统;它不是简单的文本规则或轻量verifier,而是一条高成本的多模态评估链路。 - 轨迹存储与显存压力更高:
多模态生成RL的中间产物不再是轻量token,而是高维latent、噪声、时间步和条件状态;这些信息既要支撑训练侧的log-prob replay,又可能需要从rollout engine传回trainer,视频生成中还会随分辨率、帧数和去噪步数快速放大。
这些挑战导致了行业内“一个模型一套训练代码”的现状,开发者则不得不花费大量时间在重复的工程实现上,而无法专注于算法创新和模型效果提升。
UniRL发布:一套框架,打通多模态RL后训练
针对上述行业痛点,腾讯混元团队打造了UniRL:一个面向多模态生成模型的通用RL后训练框架。
UniRL不绑定单一模型族、单一算法或单一训练栈,而是以Ray worker group、Hydra flat recipe、可组合训练后端和可插拔rollout engine为核心骨架,抽象出一套多模态RL闭环契约:rollout → reward → advantage → train → weight-sync。
借助这套抽象和类型化rollout数据模型,UniRL可覆盖diffusion / flow、LLM / VLM、prompt-enhancement以及unified model四类训练场景。
不同domain可以保留各自的训练逻辑,同时复用统一的调度、数据传输、reward、advantage和权重同步边界。

对开发者来说,UniRL在解决什么?
UniRL的目标不是提供又一个算法库,而是把多模态RL训练中所有重复、易错、极难复用的系统工程问题全部沉到框架底层。
让开发者不必反复重写rollout、reward、轨迹传输和训练对齐逻辑,而是把更多精力放回模型、reward和算法本身。
在diffusion / video RL中,rollout和trainer之间传递的不再只是轻量token,而是高维latent轨迹、时间步、条件状态和log-prob replay所需信息。
UniRL将这些中间状态的存储、传输和显存控制纳入框架设计,避免大张量汇聚到driver,并结合分批forward、稀疏轨迹、offload、sleep / wake等机制降低峰值压力。
UniRL用轨迹 (track) 表示承载不同阶段的生成轨迹:AR阶段是TextSegment,图像生成阶段则是LatentSegment,不同track之间通过parent-child关系连接。
这使得Bagel、HunyuanImage 3.0这类统一多模态模型,先AR文本思考、再DiT图像生成的链式流程可以被自然表示,并为后续的reward回传、advantage计算和分track训练提供统一的数据基础。
全面覆盖主流多模态模型
UniRL提供了业界最广泛的模型支持,几乎涵盖了当前所有主流的多模态生成模型:
图像生成:SD3/3.5、Qwen-Image、Z-Image, FLUX.2-Klein 视频生成:HunyuanVideo 1.0&1.5、WAN系列 大语言模型:Qwen3系列 多模态理解模型:Qwen-VL系列 原生统一多模态模型:HunyuanImage 3.0、Bagel 组合式模型:LLM/VLM + Diffusion的Prompt-Enhancer架构
开箱即用:算法、模型与奖励系统一体化
除了统一训练框架,UniRL也内置了多类多模态AIGC RL算法和奖励组件,方便研究者与开发者快速启动实验,并在同一套接口下比较不同算法与模型配置。
在算法侧,UniRL支持多种典型RL后训练路线:
Policy-gradient家族:FlowGRPO、DanceGRPO、MixGRPO、LLM / VLM GRPO等; Forward-process家族:DiffusionNFT,面向无需完整SDE rollout的高效训练场景; - 腾讯混元自研算法Flow-DPPO与DRPO:
Flow-DPPO将噪声较大的PPO ratio clipping替换为可精确计算的逐步KL散度近端约束,并用非对称divergence mask只阻断“继续远离旧策略且已超出阈值”的更新,从而实现更稳定、更高效的flow/diffusion图像/视频模型RL训练。
论文:Flow-DPPO: Divergence Proximal Policy Optimization for Flow Matching Models;
链接:https://arxiv.org/pdf/2606.11025
DRPO用advantage加权的平滑的策略偏移正则项替代PPO/GRPO中基于重要性比率的硬裁剪/掩码,在越过信任域边界时仍提供连续梯度修正,从而实现更稳定、更高效的LLM RL训练
论文:Rethinking the Divergence Regularization in LLM RL;
链接:https://arxiv.org/pdf/2606.09821
在奖励侧,UniRL集成了多类常用reward与judge组件,覆盖图像、视频和文本相关的多模态评估需求:
规则/相似度:CLIPScore、GOT-OCR-2.0; 偏好/美学:PickScore、HPSv2 / HPSv3、ImageReward; VLM-as-judge:UnifiedReward、GenEval2、WISE; 视频评估:VideoPickScore、VideoAlign。
这些算法与reward组件都可以接入UniRL的统一训练闭环,使用户不必为每个模型、每个reward、每个rollout engine重新搭建一套训练脚本。
UniRL目前提供了完善的examples,方便大家体验和复现算法。
从研究原型到可复用训练基建
UniRL的目标不是提供某一个模型或某一个算法的单点实现,而是为多模态生成RL提供一套可复用、可扩展的基础设施。
通过统一rollout、reward、advantage、train与weight-sync的系统边界,UniRL希望降低多模态RL的工程门槛,让研究者把更多精力放在算法设计、reward设计和模型能力提升上。
目前,UniRL仍处于活跃迭代阶段。后续将继续完善核心训练闭环,扩展rollout engine支持,优化大规模训练性能,并探索更多硬件和部署环境下的适配能力。
GitHub代码库:https://github.com/Tencent-Hunyuan/UniRL
官方文档:https://unirl-project.github.io/unirl/
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
我们正在招聘一名眼疾手快、关注AI的学术编辑实习生 🎓

🌟 点亮星标 🌟