RL凭什么比SFT遗忘的更少?

大模型之心Tech 2025-10-14 19:00

作者 | 大家好我是爱因 

转自 | 

原文链接:https://zhuanlan.zhihu.com/p/1948475982827750403

点击下方卡片,关注“大模型之心Tech”公众号


本文只做学术分享,如有侵权,联系删文,自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询

论文名称:RL’s Razor: Why Online Reinforcement Learning Forgets Less
论文链接:https://arxiv.org/pdf/2509.04259
机构:MIT Improbable AI Lab

TL;DR

本论文系统比较了在相同新任务性能前提下,reinforcement learning(RL)与 supervised fine-tuning(SFT)对“旧能力保留”的差异:RL 显著更不易产生 catastrophic forgetting。作者提出一条可操作的“遗忘经验律”:只用“新任务分布”即可预测遗忘程度——即以新任务样本估计的前向 KL,  。

进一步实验与理论表明,on-policy 的 RL 天然偏向“KL-最小解”,在等性能下产生更小的分布漂移;SFT 则可能收敛到距离基模更远的解。作者将此原则命名为“RL’s Razor”:在能同样解决新任务的多种策略中,RL 更倾向选择离原策略 KL 最近的那一个

这一视角统一解释了多域实证结果,并启示未来后训练方法应显式控制相对基模的 KL 漂移以降低遗忘。

RL凭什么比SFT遗忘的更少?图1
图 1:倾向于 KL 最小化解可以减少遗忘。左图:在能够解决新任务的策略中,RL 会收敛到与基模型 KL 距离最近的策略。右图:这种 KL 偏向在保持相同新任务性能的情况下,相比 SFT 能够带来更高的旧任务保持度。

一、研究背景与动机

大规模 Foundation Model 在语言、视觉、机器人等领域成为基础能力载体,但现实部署多为“静态”:上线后主要依赖既有能力,缺乏持续自我改进与在线适应。

一旦为满足新需求进行后训练,模型常出现 catastrophic forgetting,即对既有广泛能力的显著退化。这直接制约了“long-lived agents”愿景的落地。既有缓解方法多从参数约束、特征保持或输出正则化出发,但多是治标而非溯源。

本文将视角聚焦于两条主流后训练范式:SFT 与 RL,提出“为何在同等新任务效果下,RL 更不易遗忘”的统一解释,并给出可测、可控的遗忘预测指标(仅依赖新任务分布)。

二、核心思路或方法

核心结论有三:
其一,RL 在新任务上达到与 SFT 相当的性能时,旧任务保留显著更好(如图 2)。

RL凭什么比SFT遗忘的更少?图2

图 2:RL 与 SFT 的帕累托前沿。
比较微调模型在新任务(横轴)和旧任务(纵轴)上的表现。每个点对应一组不同超参数训练得到的模型,曲线描绘了两种方法的帕累托前沿。RL 在保持已有知识的同时实现了新任务的提升,而 SFT 则是在提升新任务性能的同时以遗忘旧任务为代价。

其二,遗忘度可由“新任务上的前向 KL”高精度预测: 越小,遗忘越少(如图 3 中图,R² 在玩具环境达 0.96,在 LLM 任务达 0.71)。

RL凭什么比SFT遗忘的更少?图3

图 3:KL 散度预测灾难性遗忘。
(左)学习-遗忘权衡:只有在使用“oracle 分布”作为标注来源时,SFT 才优于 RL。
(中)当遗忘程度与 KL 散度作图时,结果汇聚到一条曲线上,表明 KL 是跨方法的强预测指标。
(右)与 SFT 相比,RL 通过更小的 KL 偏移即可提升新任务准确率,凸显了基于 on-policy 更新的保守性。

RL凭什么比SFT遗忘的更少?图4
图 11: 我们绘制了基模型与微调模型在新任务上的 KL 散度,以及不同方法对应的遗忘表现。

其三,这一差异源于 on-policy:RL 每步从当前策略采样并按优势/奖励重加权,更新偏好“离起点更近”的分布;SFT 则被外部标注分布牵引,可能被“拉”向任意、且与基模相距很远的解。作者将之概括为“RL’s Razor”。

为控制变量,论文构造四类训练目标并横向对比:

(1)GRPO(on-policy,含负例梯度);

(2)1–0 Reinforce(on-policy,仅正例重加权);

(3)SFT(offline,无负例);

(4)SimPO(offline,含负例)。

结果显示:决定性因素是“是否 on-policy”,而非“是否用负例梯度”(如图 4 中右图的 KL 曲线)

RL凭什么比SFT遗忘的更少?图5

图 4:算法类别比较。
(左)四个象限展示了不同的算法类型,根据其是否为 on-policy 或 offline,以及是否引入负梯度来划分。
(中)on-policy 方法能够更有效地保留已有知识。
(右)GRPO 和 1-0 Reinforce 都在实现更高新任务准确率的同时,仅产生较小的 KL 偏移,说明 on-policy 方法在 KL 更新上始终更为保守。

理论上,作者以概率空间投影视角刻画 RL 更新:一次 RL 可理解为先对“奖励=1”的可行集做 I-projection(拒绝采样的条件分布),再对可表征策略族做 M-projection,从而沿“最小 KL 路径”逼近最优解(如图 5)

定理进一步说明,在二值奖励与适当条件下,策略梯度将收敛到“表征族与最优集交集中相对初始策略 KL 最小”的策略。这为“RL 偏向 KL-最小解”提供了原则性支撑。

RL凭什么比SFT遗忘的更少?图6
图 5:通向最优解的 KL 最小化路径。通过在最优策略集合上的 I 投影与在策略空间 Π 上的 M 投影交替进行,可以将初始策略 π₀ 映射到最优集合 P*,同时偏向于选择 KL 距离最近的解。

三、实验设计与主要结论

数据与任务设置(跨 LLM 与机器人):

(1)LLM-Math:Qwen 2.5 3B-Instruct 在 Open-Reasoner-Zero 数学题上微调;

(2)LLM-Science Q&A:同基模在 SciKnowEval 化学 L-3 子集训练;

(3)LLM-Tool Use:在 ToolAlpaca 上训练工具调用;

(4)Robotics:OpenVLA-7B 在 SimplerEnv 做“拾取易拉罐”新任务。

旧能力评估覆盖 HellaSwag、TruthfulQA、MMLU、IFEval、Winogrande、HumanEval 等多基准;机器人则在与微调任务不同的 SimplerEnv 子任务上测“泛化操控”成功率。训练均进行大范围超参扫描,绘制“新任务表现—旧任务保留”的双目标 Pareto 前沿(如图 2)。


主结果1(RL vs SFT 的 Pareto 前沿)

在三个 LLM 任务与一项机器人任务中,RL 前沿普遍“右上移”,即在相同新任务精度下有更高的旧任务得分;或在相同旧任务保留水平下能取得更高新任务表现。

以数学任务为例,SFT 的新任务小幅提升常伴随旧能力急剧下降;而 RL 提升更“保守”,旧基准几乎不动(如图 2 左上)。在 Science Q&A 与 Tool Use,随新任务逼近高精度,SFT 旧能力开始快速下滑,而 RL 仍基本稳定。机器人“拾取”场景亦复现相同趋势。结论:RL 在“学新不忘旧”方面显著优于 SFT



主结果2(KL 经验律

在可控的 ParityMNIST 玩具设定中(新任务为“奇偶分类”,多解同优),作者令预训练 MLP 同时学 ParityMNIST 与 FashionMNIST,并在微调阶段仅看新任务。

以 FashionMNIST 性能度量遗忘,发现不同方法/超参造成的“学习—遗忘”点,若以前向 KL 为横轴、遗忘为纵轴,会“坍缩”为一条函数曲线(R²≈0.96),表现出极强预测力;

而参数 L1/Fisher-L2/谱范数、隐表征漂移、更新稀疏性/秩等候选变量均不及前向 KL(详见表 1)。在 LLM 真实任务,前向 KL—遗忘的二次拟合亦有较强相关(R²≈0.71)。结论:遗忘主要由“新任务上的前向 KL 漂移”决定


主结果3(on-policy 才是关键)

四类目标的对比显示:1–0 Reinforce 与 GRPO(均为 on-policy)在同等新任务精度下的 KL 漂移远小于 SFT/SimPO(offline),且旧能力保留也更好(如图 4)。

这说明“是否 on-policy”是导致“忘得少”的根本因素,而“是否含负例梯度”并非必要条件(SimPO 含负例但仍忘得多;1–0 Reinforce 无负例仍不易忘)。



主结果4(Oracle SFT 与蒸馏验证

作者在 ParityMNIST 中构造“KL-最小且 100% 正确”的 oracle SFT 标注分布。用其训练的 SFT 比 RL 还“忘得更少”,获得全局最优的“精度—保留”权衡(如图 3 左)

此外,将 RL 学到的分布蒸馏为 SFT,能复现 RL 的曲线(如图 9)。两点共同佐证:算法本身不是决定遗忘的根因,“学到的分布与基模的 KL 距离”才是

RL凭什么比SFT遗忘的更少?图7

图 9:从 RL 教师模型蒸馏到 SFT。
新任务(MNIST)与旧任务(FashionMNIST)之间的准确率权衡。通过调整学生模型的超参数,可以看到 SFT 在两个任务上都能在噪声范围内匹配教师模型。这表明关键不在于优化路径,而在于最终模型的分布。

Ablation 与替代解释检验:作者全面评测了

(1)参数层变化(L1、Fisher-L2、谱范数);

(2)表征层漂移(隐层激活距离);

(3)更新稀疏性/秩(指出 bfloat16 导致“小更新量不可表示”的“伪稀疏”现象,用 float32 即消失);

(4)多种分布距离(反向 KL、TV、L2)。

结论如表 1:只有“前向 KL(以新任务估计)”拥有稳定且最高的解释力,反向 KL 次之,TV 与 L2 中等,其余指标弱相关或无效(例如“秩”为满秩)

RL凭什么比SFT遗忘的更少?图8
表 1:与前向 KL 相比的替代变量预测能力。没有任何替代变量能够接近前向 KL 散度的解释力。

方法学细节:LLM 侧采用统一提示集、对新任务与旧基准分离评测,并通过大规模超参扫描寻找 Pareto 前沿;RL 采用 GRPO,奖励仅用“成败二值”,不显式加 KL 正则,强调这是“隐式 KL 最小化”的自然产物。

玩具环境保证对比能完整收敛与系统消融。理论侧以“I/M 投影—EM”视角给出收敛到“KL-最小最优解”的条件化结论,为经验观察提供统一解释框架。

四、论文意义与可能应用

工程启示:
(1)将“相对基模的前向 KL(以新任务样本估计)”纳入训练/早停/超参搜索的监控指标,可在训练中前瞻性规避遗忘;
(2)当必须走 SFT 路线时,尽可能让监督分布贴近基模(如用“RL 生成的数据”或“oracle/近似 oracle 标注策略”),即可获得与 RL 相近的保留性;
(3)对 RL,则可在不显式 KL 正则的情况下,通过 on-policy 设计自然获得更保守的漂移;
(4)连续学习/在线部署中,将“与基模的 KL 移动量”作为第一类约束(和 compute、latency 同级)是可行而且高性价比的策略。

五、个人点评或未来展望

优点:提出了“只看新任务分布即可预测遗忘”的极简经验律,并用跨域实证+投影几何的理论化解释统一了 RL 与 SFT 的差异,给出了可落地的监控与控制指标。

局限与展望:

(1)机制层面仍缺更细致的“何以 KL 漂移会破坏旧能力”的表征学解释;

(2)前向 KL 的估计在大模型与复杂输出空间上仍有方差与近似误差;

(3)前沿规模与多模态生成(如 MLLM、行动序列)上的普适性仍待验证;

(4)离线但“近似 on-policy”的算法(例如带重要性修正/自蒸馏的半在线范式)或许可兼得数据效率与低遗忘,值得深入探索。

总体来看,“RL’s Razor”提供了后训练研究的新坐标系:不再仅以新任务指标论英雄,而要同时度量“相对基模的 KL 位移”,在最小位移的解中取最优,从而让模型“学新而不忘旧”。

大模型之心Tech知识星球交流社区

我们创建了一个全新的学习社区 —— “大模型之心Tech”知识星球,希望能够帮你把复杂的东西拆开,揉碎,整合,帮你快速打通从0到1的技术路径。 

星球内容包含:每日大模型相关论文/技术报告更新、分类汇总(开源repo、大模型预训练后训练知识蒸馏量化推理模型MoE强化学习RAG提示工程等多个版块)、科研/办公助手AI创作工具/产品测评、升学&求职&岗位推荐,等等。

星球成员平均每天花费不到0.3元,加入后3天内不满意可随时退款,欢迎扫码加入一起学习一起卷!

RL凭什么比SFT遗忘的更少?图9

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号