腾讯混元最新开源：一套RL框架打通多个模态，庞天宇团队新作

腾讯混元团队投稿
量子位 | 公众号 QbitAI

大语言模型的RL技术已日趋成熟，多模态生成模型的强化学习训练却仍在“各自为战”——图像扩散模型一套流程、视频生成另一套标准、VLM和LLM又有不同的技术栈。

这种技术栈的碎片化严重制约了AIGC模型的能力上限。

针对这个问题，腾讯混元庞天宇团队正式开源UniRL：一个面向统一多模态生成的分布式RL后训练框架。

该框架首次将扩散模型、自回归模型与生成理解统一模型的强化学习训练纳入同一套完整流程，为多模态模型强化学习迭代铺平了道路。

多模态RL的“孤岛困境”：AIGC训练基础设施的长期痛点

近年来，AIGC领域取得了巨大的发展，从Stable Diffusion到FLUX，从Wan到HunyuanVideo，生成模型的能力边界不断拓展。

然而，在模型能力快速迭代的背后，AIGC强化学习训练基础设施的缺失却成为了整个行业的痛点。与LLM的RL训练相比，多模态生成RL面临着四大难以逾越的技术挑战：

生成过程本质不同：
LLM RL主要处理离散token序列，而图像/视频生成对应连续潜空间中的去噪轨迹；统一多模态模型的一次rollout还会混合token生成与latent去噪，使credit assignment、log-prob计算与策略更新都更复杂。
系统闭环更难稳定：
rollout、log-prob replay与策略更新往往跨越多个模型和执行后端，训练侧必须严格复现采样侧的条件、噪声、时间步与轨迹信息，否则会产生Training-Inference Mismatch问题, 引入策略梯度bias，导致RL训练不稳定。
奖励系统更重：
多模态生成RL的reward往往依赖VLM、OCR、美学模型、视频理解模型，甚至多轮agent打分系统；它不是简单的文本规则或轻量verifier，而是一条高成本的多模态评估链路。
轨迹存储与显存压力更高：
多模态生成RL的中间产物不再是轻量token，而是高维latent、噪声、时间步和条件状态；这些信息既要支撑训练侧的log-prob replay，又可能需要从rollout engine传回trainer，视频生成中还会随分辨率、帧数和去噪步数快速放大。

这些挑战导致了行业内“一个模型一套训练代码”的现状，开发者则不得不花费大量时间在重复的工程实现上，而无法专注于算法创新和模型效果提升。

UniRL发布：一套框架，打通多模态RL后训练

针对上述行业痛点，腾讯混元团队打造了UniRL：一个面向多模态生成模型的通用RL后训练框架。

UniRL不绑定单一模型族、单一算法或单一训练栈，而是以Ray worker group、Hydra flat recipe、可组合训练后端和可插拔rollout engine为核心骨架，抽象出一套多模态RL闭环契约：rollout → reward → advantage → train → weight-sync。

借助这套抽象和类型化rollout数据模型，UniRL可覆盖diffusion / flow、LLM / VLM、prompt-enhancement以及unified model四类训练场景。

不同domain可以保留各自的训练逻辑，同时复用统一的调度、数据传输、reward、advantage和权重同步边界。

对开发者来说，UniRL在解决什么？

UniRL的目标不是提供又一个算法库，而是把多模态RL训练中所有重复、易错、极难复用的系统工程问题全部沉到框架底层。

让开发者不必反复重写rollout、reward、轨迹传输和训练对齐逻辑，而是把更多精力放回模型、reward和算法本身。

在diffusion / video RL中，rollout和trainer之间传递的不再只是轻量token，而是高维latent轨迹、时间步、条件状态和log-prob replay所需信息。

UniRL将这些中间状态的存储、传输和显存控制纳入框架设计，避免大张量汇聚到driver，并结合分批forward、稀疏轨迹、offload、sleep / wake等机制降低峰值压力。

UniRL用轨迹 (track) 表示承载不同阶段的生成轨迹：AR阶段是TextSegment，图像生成阶段则是LatentSegment，不同track之间通过parent-child关系连接。

这使得Bagel、HunyuanImage 3.0这类统一多模态模型，先AR文本思考、再DiT图像生成的链式流程可以被自然表示，并为后续的reward回传、advantage计算和分track训练提供统一的数据基础。

全面覆盖主流多模态模型

UniRL提供了业界最广泛的模型支持，几乎涵盖了当前所有主流的多模态生成模型：

图像生成：SD3/3.5、Qwen-Image、Z-Image, FLUX.2-Klein
视频生成：HunyuanVideo 1.0&1.5、WAN系列
大语言模型：Qwen3系列
多模态理解模型：Qwen-VL系列
原生统一多模态模型：HunyuanImage 3.0、Bagel
组合式模型：LLM/VLM + Diffusion的Prompt-Enhancer架构

开箱即用：算法、模型与奖励系统一体化

除了统一训练框架，UniRL也内置了多类多模态AIGC RL算法和奖励组件，方便研究者与开发者快速启动实验，并在同一套接口下比较不同算法与模型配置。

在算法侧，UniRL支持多种典型RL后训练路线：

Policy-gradient家族：FlowGRPO、DanceGRPO、MixGRPO、LLM / VLM GRPO等；
Forward-process家族：DiffusionNFT，面向无需完整SDE rollout的高效训练场景；
腾讯混元自研算法Flow-DPPO与DRPO:
Flow-DPPO将噪声较大的PPO ratio clipping替换为可精确计算的逐步KL散度近端约束，并用非对称divergence mask只阻断“继续远离旧策略且已超出阈值”的更新，从而实现更稳定、更高效的flow/diffusion图像/视频模型RL训练。
论文：Flow-DPPO: Divergence Proximal Policy Optimization for Flow Matching Models；
链接：https://arxiv.org/pdf/2606.11025
DRPO用advantage加权的平滑的策略偏移正则项替代PPO/GRPO中基于重要性比率的硬裁剪/掩码，在越过信任域边界时仍提供连续梯度修正，从而实现更稳定、更高效的LLM RL训练
论文：Rethinking the Divergence Regularization in LLM RL；
链接：https://arxiv.org/pdf/2606.09821