RLHF与RLVR全都要,陈丹琦团队最新力作将推理能力拓展到通用智能

机器之心 2025-09-28 12:47
机器之心报道

编辑:冷猫

思考自身行为的后果,并在必要时进行修正 —— 这是人类智慧的核心特征之一。


一个月前,我们曾报道过清华姚班校友、普林斯顿教授的消息。有些爆料认为她在休假一年后,会离开普林斯顿,全职加入 Thinking Machines Lab。


最近,陈丹琦在普林斯顿大学的团队发布了最新学术成果,表明了 RLVR 范式在可验证领域之外依然有效,提出了 基于模型奖励思维的强化学习(RLMT) 方法,它将显式的思维链推理融入通用聊天模型之中。


RLHF与RLVR全都要,陈丹琦团队最新力作将推理能力拓展到通用智能图1



众所周知,大型语言模型传统上遵循一种多阶段训练范式:首先在大规模文本语料上进行 预训练,然后通过 监督微调 来学习指令跟随,最后借助 强化学习 来对齐人类偏好。


这种方法确实催生了功能强大的对话式 AI 系统,但仍存在一个关键局限:


在数学、编程等领域通过可验证奖励的强化学习(RLVR)所获得的推理能力,并不能有效迁移到通用对话任务上


本文介绍了 基于模型奖励的思维强化学习(RLMT) 方法,它弥合了 专门推理能力 与 通用对话能力 之间的差距。该方法使语言模型能够在开放式任务中进行显式的「思考」过程,将 链式思维 的优势从可验证领域扩展到更广泛的范围,从而提升整体对话表现。


RLHF与RLVR全都要,陈丹琦团队最新力作将推理能力拓展到通用智能图2

使用基于奖励模型的强化学习,在多样化的、通用的用户提示上训练具备长链式思维的语言模型。与 RLHF 相比,RLMT 让模型能够进行「思考」,并且将 RLVR 扩展到了更广泛的、开放式任务之中。


当前的大语言模型训练面临一个根本性的两难局面。像 DeepSeek-R1 所采用的 RLVR 方法,在数学推理和代码生成等领域表现突出,因为它们训练模型在给出最终答案之前生成显式的推理轨迹。然而,这类专门化的推理技能难以推广到日常对话中多样化、主观性强的任务场景里,因为这些任务缺乏可行的基于规则的验证机制。


与之相对,RLHF(基于人类反馈的强化学习) 在对齐模型与人类偏好、提升通用对话能力方面非常成功,但它将模型输出视为一个整体,并未鼓励模型发展内部推理过程。结果导致模型要么能在窄域内进行出色的推理,要么能在广域中进行自然对话,但难以同时兼顾两种能力。


RLMT(基于模型奖励的思维强化学习) 的动机来源于一个关键观察:人类在处理开放式对话任务时,自然而然会进行审慎思考 —— 包括规划、权衡不同可能性、不断修正回答。若能让语言模型也采用类似的显式推理过程,就可能在保持基于偏好的对齐优势的同时,显著提升其在通用对话基准上的表现。


RLHF与RLVR全都要,陈丹琦团队最新力作将推理能力拓展到通用智能图3

由使用 RLMT 训练的语言模型在开放式问题上生成的推理轨迹示例。


RLMT 方法: RLHF 与 RLVR 结合


优化目标


尽管最新的 RLVR 模型在形式化领域中表现出色,但它们在更广泛的推理问题和聊天基准测试中的泛化能力有限。与此同时,规划与推理确实有助于人类完成各种日常任务。


研究团队提出 模型奖励思维强化学习(RLMT,以在开放式任务上施加广泛监督。RLMT 通过以下目标函数来优化语言模型:


RLHF与RLVR全都要,陈丹琦团队最新力作将推理能力拓展到通用智能图4


如公式所示,RLMT 要求语言模型在生成最终回答 y 之前,先生成推理轨迹 z。这与 RLHF 不同;同时,RLMT 使用奖励模型 r 来对回答进行评分,而不像 RLVR 那样依赖基于规则的验证。


训练方法


由于当前使用的语言模型并不会自然采用所需的思维格式,因此研究团队尝试了两种方法来引导这一行为:


  1. 通过有监督微调(SFT)进行热启动;

  2. 直接对基础模型进行提示而不经过 SFT(即 DeepSeek-AI (2025) 提出的 「Zero」 方法)。


通过 SFT 热启动。 首先通过有监督微调(SFT)来教授模型所需的思维格式。

具体来说,团队从 Tülü 3 SFT 混合数据集中采样了 6k 个提示(与用于 RLMT 的提示互不重叠),用于 SFT。使用 Gemini 2.5 Flash (0417 Preview) 生成响应,它是近期常用的一种教师模型,用于从推理模型中蒸馏推理行为 。由于 Gemini 的 CoT 不可直接获取,通过提示它在生成最终回答之前,先产生一个模拟的思维轨迹。


基础模型的零训练。 研究团队也直接在未经热启动的基础模型上应用 RLMT,这一设置称为 Zero。


具体而言,在 Llama-3.1-8B (Llama3, 2024) 和 Qwen-2.5-7B (Qwen-2.5, 2025) 上进行了实验,这些模型都没有经历过后训练。在这种情况下,通过在输入前添加一个固定的指令前缀来引导所需的输出结构。除此之外,后续的 RL 训练过程与 RLMT 的设置保持一致。


结果:思维有利于开放式推理


RLHF与RLVR全都要,陈丹琦团队最新力作将推理能力拓展到通用智能图5

基于 GRPO 的实验结果。


实验比较了在 Llama-3.1-8B 和 Qwen2.5-7B(base 和 instruct 版本)上进行热启动 与 zero 训练的模型。表中展示了是否启用「思维」,其中 ✓ 表示 RLMT 模型,× 表示 RLHF 模型。


可以看到,启用思维的模型在表现上优于非思维基线模型,尤其是在聊天和创意写作任务上。主要关注点是聊天基准测试:WildBench (WB)、AlpacaEval2 (AE2) 和 ArenaHardV2 (AH2)。在评估未经训练的 base 模型时,研究团队使用了 思维模板 和 非思维模板 (tpl) 两种提示方式。


RLHF与RLVR全都要,陈丹琦团队最新力作将推理能力拓展到通用智能图6

表 2:将 Llama-3.1-8B-InstructRLMT 与强大的开源和闭源模型进行比较,包括 GPT-4o 和 Claude-3.7-Sonnet。


RLHF与RLVR全都要,陈丹琦团队最新力作将推理能力拓展到通用智能图7

DPO/PPO 在 warm-start 和 zero training 设置下的结果。


从表中可以看到,Warm-start + RLMT 在 DPO/PPO 下依然有效,但整体落后于 GRPO;而在 zero training 设置下,DPO 和 PPO 相比 GRPO 效果明显不足。


RL 训练如何改变型行为


研究团队分析思维模型(thinking models)在聊天基准测试上表现优异的原因。具体做法是,将 Llama-3.1-8B-Instruct-RLMT(最佳模型) 与其 仅 warm-start 但未经过 RLMT 的版本进行对比,结果发现:



这些差异反映出 优秀写作者的思维习惯,而 RLMT 的训练能自然地诱发这些特质,令人鼓舞。


RLHF与RLVR全都要,陈丹琦团队最新力作将推理能力拓展到通用智能图8

左图:展示了 SFT 模型与 GRPO 模型在不同思维特征上的逐项对比胜率。红色表示该特征在经过 GRPO 训练后减弱,绿色表示该特征增强。右图:给出了一段推理行为示例。当被要求撰写一个推文串时,模型首先梳理出题目要求的各种约束条件,然后规划推文的整体展开顺序。接着,它会通过 checklist 对全局进行检查,并标注出需要修正之处,最后才生成最终输出。


总结


RLMT 成功地将显式推理的优势从专业化领域扩展到通用对话式人工智能,在保持计算效率的同时实现了显著的性能提升。该方法在不同模型架构、训练算法和评测基准上的有效性,表明它具有广泛的适用性,并有潜力重塑我们对语言模型训练的方式。通过让模型「先思考再表达」,RLMT 代表着迈向更智能、更强大的对话式人工智能系统的重要一步。


更多细节,请参阅原论文。


RLHF与RLVR全都要,陈丹琦团队最新力作将推理能力拓展到通用智能图9


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com


声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
VR
more
剑指“美国版 DeepSeek!”Ai2 科学家 Nathan Lambert 最新访谈:剖析 RLVR、激辩智能体与后训练
彻底败给AR眼镜!VR为何彻底落寞了?
重磅分享!VR-Robo:real2sim2real助力真实场景下的机器人导航和运动控制
快讯|Evri 尝试将机器人狗用于送货;NVIDIA首款人形机器人将于11月亮相;哈佛大学团队发明柔软可穿戴外骨骼机器人
NeurIPS 2025 Spotlight | GeoSVR:稀疏体素的新潜力——超越3DGS系列的高精度三维表面重建
NeurlPS'25开源 | 不依赖复杂初始化,GeoSVR:真正精确、完整的3D表面重建
元宇宙入口:脑机接口替代VR设备的千亿替代战
清华RAL'25开源 | VR-Robo:通过3DGS实现机器人视觉运动与导航!
全面碾压π0,国产VLA“弯道超车” | VR教1次就会,字节GR-3开启机器人「闪学」时代,泛化性爆表!
6大基准全面碾压!TW-GRPO刷新视频推理天花板,CLEVRER准确率突破50.4%!
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号