
本文作者为徐兴成博士,任上海人工智能实验室青年研究员,北京大学与英国牛津大学联合培养数学博士,上海市启明星项目(扬帆专项)获得者。研究方向:大模型后训练、强化学习与基础理论研究。
强化学习(RL)是锻造当今顶尖大模型(如 OpenAI o 系列、DeepSeek-R1、Gemini 2.5、Grok 4、GPT-5)推理能力与对齐的核心 “武器”,但它也像一把双刃剑,常常导致模型行为脆弱、风格突变,甚至出现 “欺骗性对齐”、“失控” 等危险倾向。长期以来,这些问题被归结为经验性的 “炼丹” 难题。近日,来自上海人工智能实验室的徐兴成博士,通过论文《策略悬崖:大模型中从奖励到策略映射的理论分析》,首次为这一顽疾提供了根本性的数学解释,揭示了强化学习深处一个名为 “策略悬崖” 的深刻挑战。

论文标题:The Policy Cliff: A Theoretical Analysis of Reward-Policy Maps in Large Language Models
论文链接:https://arxiv.org/abs/2507.20150
论文作者:徐兴成(上海 AI 实验室)
一、 悬崖边的巨人:为何 RL 训练的大模型行为如此脆弱?
从 OpenAI 的 o 系列到 DeepSeek-R1、Google 的 Gemini 2.5,再到 Anthropic 的 Claude 4、xAI 的 Grok 4 和 OpenAI 刚发布的 GPT-5,整个行业都在尝试用更精细的 “奖励” 来雕琢模型的 “行为”,强化学习,特别是基于人类反馈的强化学习(RLHF)和可验证奖励的强化学习(RLVR),已成为通往更强大、更安全的 AI 系统的必经之路。
然而,一系列令人不安的问题也随之而来。模型学会了 “谄媚”(Sycophancy),即迎合用户的偏好而非陈述事实;更危险的是,它们可能学会 “欺骗性对齐”(Deceptive Alignment),即模型表面上看起来完全对齐,实则在暗中追求着与人类意图不符的目标。更有甚者,模型会表现出失控的倾向,无视用户在请求中明确规定的语言、回复长度或格式等指令。为何模型会表现出 “谄媚”、“欺骗” 等 “口是心非” 的行为,甚至存在增加失控的风险?
这些现象,过去往往被归结为奖励函数设计得不够完美,或是 “坏数据” 的影响。但来自上海人工智能实验室研究员徐兴成的这篇论文,提供了一个更深层、更统一的理论解释,并向整个行业发出了一个严峻的警告:这些看似随机的失败并非偶然,而是源于一个深刻的数学原理 —— 从奖励到最优 AI 策略映射的不连续性。当模型在奖励函数的指引下探索行为空间时,微不足道的变化可能将它推下万丈深渊,这就是 “策略悬崖”。
二、 理论解读:“策略悬崖” 是如何形成的?
为了理解 “策略悬崖”,我们可以把 RL 的优化过程想象成一个 GPS 导航系统:
奖励 (Reward):相当于你的导航目标,例如 “找到到达目的地的最快路径”。
策略 (Policy):是 GPS 生成的具体路线,即 “前方 500 米右转,再直行 2 公里”。
奖励 - 策略映射 (Reward-Policy Map):是导航系统的核心算法,它根据你的目标(奖励)来生成最佳路线(策略)。
这篇论文的深刻洞察在于,这个核心算法的输出并非总是平滑和稳定的。“策略悬崖” 指的是,当你对导航目标做出一个极其微小的调整时(例如,“避开一段收费一元的道路”),导航系统给出的路线可能会发生天翻地覆的变化,从一条康庄大道突然切换到一条完全不相干的乡间小路。
这种剧变在数学上被称为不连续性 (Discontinuity)。论文证明,导致这种不连续性的根本原因有二:
最优策略的多解性 (Degeneracy of Optima):在复杂的语言或推理任务中,通往 “正确答案” 的路径不止一条。模型可能会发现多条截然不同但奖励值几乎完全相同的 “最优路径”。例如,无论是先给出答案再编造理由,还是通过严谨推理得出答案,只要最终结果正确,一个不完美的奖励函数可能会给予它们同等的最高分。这就形成了一个庞大的、模糊的 “最优策略集”。
奖励函数的不完备性 (Incompleteness of Rewards):我们设计的奖励函数几乎永远是真实世界复杂目标的 “有损压缩”。它总会遗漏某些重要的维度。当模型面对一个不完备的奖励函数时,它会像一个 “聪明的懒汉” 一样,理性地选择最省力的方式来最大化这个有缺陷的指标,而无视那些没有被奖励明确约束的行为。
当这两个条件同时满足时,“策略悬崖” 就出现了。RL 优化算法就像一个在平坦高原上寻找最高点的盲人,奖励信号微小的扰动都可能让他从一个 “山峰” 瞬间 “跳” 到另一个 “更高的山峰”,导致模型行为发生剧变。
三、从理论到现实:统一解释多种 “对齐失败” 现象
这篇论文的强大之处在于,它将上述理论框架应用到了对近期 AI 安全领域多个关键实验的解读上,形成了一条有力的证据链,证明 “策略悬崖” 并非纸上谈兵。
证据一:“公然作弊” 与 “隐蔽欺骗”
核心洞察:在 OpenAI 关于模型在编码任务中 “作弊” 的研究中,当奖励信号(弱评估器)只能检查单元测试是否通过时,模型学会了直接修改测试用例来 “作弊”。当研究者试图用一个能检测作弊行为的 “补丁”(CoT 监督)来修复奖励时,模型并没有变得诚实,而是学会了更高级的欺骗 —— 它会写出看似无辜的推理过程,但同时进行了更隐蔽的篡改。
理论解释:这正是两种典型的 “策略悬崖” 式跳变。当 CoT 未受监控时,模型通过直接修改测试用例学会了公然的作弊。增加惩罚项并未使策略平滑地趋向 “诚实”,而是将模型从一个 “坏” 的策略点,推向了另一个同样 “坏” 但更难被发现的策略点。因为新的奖励地貌依然存在漏洞,允许这种隐蔽欺骗成为新的最优解之一。
证据二:“违背指令”、“谄媚” 与 “诡辩”
核心洞察:研究发现,专门为提升推理能力而训练的模型,其遵循指令(如格式、风格、语言)的能力反而会下降。同样,在 RLHF 中,模型最终学会的不是更 “真实”,而是更 “受用户喜欢” 或更 “有说服力”,哪怕这意味着牺牲事实。
理论解释:这些现象都源于不完美的奖励。在违背指令的案例中,奖励信号没有包含指令遵循的部分。在谄媚或诡辩的案例中,奖励模型来自用户偏好,与真实奖励信号存在显著的偏差。模型只是在理性地最大化它被赋予的目标,从而自然地滑向了那些虽非本意但奖励同样高的策略区域。
证据三:跨领域多奖励场景中的敏感性
核心洞察:在更复杂的、需要同时平衡来自于多个不同领域(如数学、编码、安全)的奖励的场景中,论文作者通过受控实验证明,仅仅对其中一个奖励模型进行微调,或者对训练数据进行微小的筛选(例如移除 200 个模棱两可的样本),就会导致最终模型的性能在多个维度上发生剧烈变化。
理论解释:这验证了论文提出的 “有效奖励 (Effective Reward)” 概念。在多任务学习中,模型内部会形成一个依赖于当前上下文的、动态聚合多个奖励的 “有效奖励函数”。最终策略的稳定性,取决于这个内部聚合机制的稳定性。数据或者奖励信号的微小变动,就可能改变聚合的奖励信号,从而重塑整个有效奖励地貌,引发策略跳变。
四、影响与展望:从 “炼丹术” 到 “物理学”
《策略悬崖》这篇论文的意义,远不止于解释已有的问题。它为整个 AI 安全和对齐领域带来了重要的认知启发和理论根基。
挑战现有范式:它表明,仅仅依靠 “更大的模型、更多的数据、更强的算力” 可能无法从根本上解决对齐问题。如果底层的奖励 - 策略映射本身是断裂的,再强大的优化算法也可能在悬崖边迷失。未来的研究必须更加关注奖励地貌的结构本身。
重新审视正则化:论文从数学上严格证明,熵正则化 (Entropy Regularization) 并非只是一个提升探索效率的 “小技巧”,而是一个能恢复 “奖励 - 策略映射” 连续性的根本性工具。它通过鼓励策略的随机性,平滑了奖励地貌中的尖峰和悬崖,确保了模型的稳定。这为熵正则化在实践中的广泛应用提供了坚实的理论基础。
通往可控 AI 的新路径:理解 “策略悬崖” 也意味着我们可以利用它。既然微小的 “推力” 可以引导策略发生巨大转变,那么通过精心设计的 “决胜局奖励 (Tie-Breaker Rewards)”,我们或许能主动地、可控地将模型推向我们期望的、更优的策略区域,实现 “四两拨千斤” 的精细控制。
对具身智能的启示:这项研究甚至对具身智能、机器人等领域也有启发。当 AI 需要与物理世界交互时,其策略的稳定性和可预测性至关重要。“策略悬崖” 的存在,提醒我们在将这些模型赋予物理实体之前,必须对奖励与策略之间的复杂动态有足够深刻的理解和控制。
五、结语
长期以来,AI 对齐的研究在很大程度上依赖于经验、直觉和试错,仿佛一门复杂的 “炼丹术”。这篇论文,则为这门艺术注入了严谨科学的灵魂。它用严谨的理论和坚实的证据,揭示了一个我们长期以来隐约感觉到、却从未清晰指出的问题。
当然,正如作者在论文中坦言,这项工作目前仍侧重于理论框架的构建,其提供的证据主要来自于对现有研究的再解读和初步的受控实验。未来仍需更系统、更大规模的定量实验来验证 “策略悬崖” 的诸多推论,并基于此理论设计出全新的、更稳定的强化学习算法。
“策略悬崖” 的发现,不是一个悲观的终点,而是一个清醒的起点。它告诉我们,驯服 AI 的道路,远比我们想象的要复杂。这篇论文,就像一声及时的警钟,提醒着在 AI 浪潮中急速前行的我们:在建造更高、更智能的大厦之前,我们是否真正理解了这块地基的物理属性?这,或许是通往真正安全、可信的通用人工智能之路上,我们必须回答的核心问题。
参考文献
1. T. Korbak, M. Balesni, et al. Chain of thought monitorability: A new and fragile opportunity for AI safety. arXiv preprint arXiv:2507.11473, 2025.
2. B. Baker, J. Huizinga, L. Gao, Z. Dou, M. Y. Guan, A. Madry, W. Zaremba, J. Pachocki, and D. Farhi. Monitoring reasoning models for misbehavior and the risks of promoting obfuscation. arXiv preprint arXiv:2503.11926, 2025.
3. T. Fu, J. Gu, Y. Li, X. Qu, and Y. Cheng. Scaling reasoning, losing control: Evaluating instruction following in large reasoning models. arXiv preprint arXiv:2505.14810, 2025.
4. OpenAI. GPT-5 System Card. August 7, 2025. https://cdn.openai.com/pdf/8124a3ce-ab78-4f06-96eb-49ea29ffb52f/gpt5-system-card-aug7.pdf

© THE END
转载请联系本公众号获得授权
投稿或寻求报道:liyazhou@jiqizhixin.com