快手Klear团队提出CE-GPPO:通过梯度保留协调熵,解决强化学习中的熵不稳定问题

机器之心 2025-10-25 09:02

快手Klear团队提出CE-GPPO:通过梯度保留协调熵,解决强化学习中的熵不稳定问题图1


本研究由快手科技 Klear 语言大模型团队完成,核心作者苏振鹏,潘雷宇,吕民轩,胡文凭,张富峥,周国睿等。快手 Klear 语言大模型团队聚焦在基础语言大模型研发、Agent RL 等前沿技术创新等方向,积累务实的探索 AGI 的能力边界,并不断推进 AI 领域新技术和新产品的发展。此前,该团队已开源了 Klear-46B-A2.5B 和 Klear-Reasoner-8B 等模型,其中 Klear-Reasoner-8B 在数学和代码的基准测试上达到了同参数级别模型的 SOTA 效果。


近年来,随着 OpenAI O1、Deepseek R1、KIMI K2 等大模型不断展示出复杂推理与思维链能力,强化学习已成为推动语言模型智能跃升的关键技术环节。相比传统的监督微调,RL 通过奖励信号直接优化模型行为,使模型能够在训练中自我探索、自我修正。


然而,这一阶段的训练并非稳态过程。业界在大规模 RLVR 实践中普遍发现,模型熵的失衡,即探索与利用的不协调,是导致模型训练不稳定、性能难以提升的核心原因。针对这一长期瓶颈,快手 Klear 团队提出了一种新的强化学习算法 CE-GPPO(Coordinating Entropy via Gradient-Preserving Policy Optimization),该方法以「熵」为核心视角,重新审视 RL 中梯度裁剪机制的本质影响,并对应地提出了梯度保留策略,在保证训练稳定的前提下,纳入裁剪区间外的梯度使模型能够在训练过程中达到探索与收敛的平衡。


快手Klear团队提出CE-GPPO:通过梯度保留协调熵,解决强化学习中的熵不稳定问题图2



研究动机


在使用强化学习方法优化大模型以处理复杂推理任务的过程中,策略熵的平衡是核心挑战,原因在于它衡量了动作选择的不确定性,能够代表模型探索与利用的权衡。然而,现有的方法通常面临熵不稳定的问题,具体来说包含两方面,一方面是熵坍缩,这会造成模型的输出趋于单一,丧失探索能力,另一方面是熵爆炸,这会造成模型过度探索,进而导致训练不稳定、难以收敛。


快手Klear团队提出CE-GPPO:通过梯度保留协调熵,解决强化学习中的熵不稳定问题图3


CE-GPPO 通过研究将所有 token 分为四类,分别对熵有不同的作用:




然而,由于 PPO 等方法广泛采用的 clip 机制,有些低概率的 token(包括 PA&LP token 和 NA&LP token)的梯度被直接截断,这意味着,PPO 在保证稳定性的同时,失去了平衡探索与利用的「安全阀」,从而导致了熵的不稳定变化,具体来说又分为以下两种情况:



现有的一些方法,比如 DAPO 中的 clip higher 方法拓展了裁剪的上界,仅仅纳入了一部分原本被裁剪的 PA&LP token,并没有解决过度探索的问题。因此,CE-GPPO 的核心目标是:在保证训练稳定的前提下,重新利用裁剪外区间低概率 token 的梯度,实现策略熵的精细调控,平衡模型训练过程中的探索与利用。


算法设计


基于上述洞察,快手 Klear 团队提出了全新的 CE-GPPO 算法,其核心思想是:不再丢弃被裁剪 token 的梯度,而是有控制地保留和缩放它们,让它们作为平衡熵变化,平衡探索与利用的 “阀门”。


核心机制


快手Klear团队提出CE-GPPO:通过梯度保留协调熵,解决强化学习中的熵不稳定问题图4


上式是 CE-GPPO 的目标函数,其在原 PPO 框架上引入了两项关键改进:




梯度稳定性证明


快手Klear团队提出CE-GPPO:通过梯度保留协调熵,解决强化学习中的熵不稳定问题图5


上式是 CE-GPPO 的梯度表达式,可以观察到,虽然 CE-GPPO 引入了 clip 区间外的梯度,其仍然能够维持训练稳定,一个核心的原因是梯度幅度是可控的:裁剪区间外的梯度被限制在 β₁(1-ɛ) 或 β₂(1+ɛ) ,其中 β₁ 和 β₂ 通常接近于 1,避免梯度爆炸。公式的其他项与 PPO 的梯度表达式一致,继承了 PPO 的「保守更新」的特性。


实验结果


为验证 CE-GPPO 在稳定性与性能上的有效性,研究团队在多个数学推理基准上进行了系统实验,包括 AIME24、AIME25、HMMT25、MATH500 和 AMC23。所有实验均基于 DeepSeek-R1-Distill-Qwen 模型(1.5B 与 7B)进行训练。


主要观察:

此外,训练过程中对比了各方法的熵动态曲线与验证集准确率变化:


快手Klear团队提出CE-GPPO:通过梯度保留协调熵,解决强化学习中的熵不稳定问题图6

快手Klear团队提出CE-GPPO:通过梯度保留协调熵,解决强化学习中的熵不稳定问题图7


实验分析


超参数对熵变化的影响


CE-GPPO 的两个核心超参数 β₁ 和 β₂ 控制了裁剪区间外梯度的权重,在 1.5B 与 7B 模型上进行了系统超参数实验,结果如图所示:



这一现象验证了 CE-GPPO 的 “可控熵调节” 机制:通过调整两个系数,训练可以在「快速收敛」与「持续探索」之间取得理想平衡。


快手Klear团队提出CE-GPPO:通过梯度保留协调熵,解决强化学习中的熵不稳定问题图8


熵变化与性能的关系


进一步的,研究还分析了熵变化与性能之间的关系,并得出了以下结论:


训练稳定性实证性验证


为了验证 CE-GPPO 的训练稳定性,研究可视化分析了训练过程中 KL 散度和 gradient norm,并与 GRPO 的训练动态进行对比,结果表明,CE-GPPO 虽然纳入了 clip 区间外 token 的梯度,但由于梯度限制在固定区域,所以其整体训练过程是平稳的。


快手Klear团队提出CE-GPPO:通过梯度保留协调熵,解决强化学习中的熵不稳定问题图9


与其他 RL 算法比较


研究还对比了 CE-GPPO 与其他近期提出的强化学习算法的性能,比如 CISPO 和 GSPO 算法,CE-GPPO 在不同基准上取得了最好的结果,进一步的,可以分析出如下结论:



快手Klear团队提出CE-GPPO:通过梯度保留协调熵,解决强化学习中的熵不稳定问题图10


与其他熵调节方法的比较


最后,研究还比较了 CE-GPPO 和其他熵调节的算法,比如传统的熵正则化以及 DAPO 的 clip-higher 策略,结果表明:


快手Klear团队提出CE-GPPO:通过梯度保留协调熵,解决强化学习中的熵不稳定问题图11


快手Klear团队提出CE-GPPO:通过梯度保留协调熵,解决强化学习中的熵不稳定问题图12


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AR
more
韩亚航空与Archer Aviation携手推广Midnight eVTOL
第十一期领军家电班开展TechMark企业经营管理实战模拟培训
【Open Car】今天各个产品都有红包
DeepSeek的新模型很疯狂:整个AI圈都在研究视觉路线,Karpathy不装了
Ask-to-Clarify:解决指令的模糊性,端到端为真实具身任务生成动作
亚马逊入局!单目HUD+AI加持,AR智能眼镜落地物流行业
【Open Car】开90也来啦
从课程高分到人生进阶,为何Andrej Karpathy两年前的一份「本科生实用」学习指南再次引起热议?
【Open Car】冬天猝不及防的来了
TUXEDO 推出英特尔 ARL-H 版 Linux 轻薄本 InfinityBook Pro 15 Gen10
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号