【AI】OpenAI去年挖的坑填上了!奖励模型首现ScalingLaw,1.8B给70B巨兽上了一课

人工智能产业链union 2025-07-17 08:00

图片

【导读】最近,一款全新的奖励模型「POLAR」横空出世。它开创性地采用了对比学习范式,通过衡量模型回复与参考答案的「距离」来给出精细分数。不仅摆脱了对海量人工标注的依赖,更展现出强大的Scaling潜力,让小模型也能超越规模大数十倍的对手。

一直以来,让AI更懂人类都是大模型领域的核心议题。

而奖励模型(RM)便是解决如何「理解人类偏好」的核心技术,同时也是限制后训练效果的关键因素。

2024年12月,OpenAI提出了一种新的强化微调(Reinforcement Fine-tuning,RFT)技术。在RFT过程中,打分器(Grader)会根据标准答案给出奖励分数,从而帮助模型「学会」如何给出正确结果。

图片

1:OpenAI强化微调代表样例

在此启发下,一种可以规避奖励模型准确度低、泛化性差等固有问题的,基于规则验证(RLVR)的方法应运而生。

然而,RLVR在很多情况下只能提供0/1奖励,无法给出更加细粒度的偏好区分。

比如像写诗、聊天这类开放式问题,就很难实现泛化,进而限制了在更通用场景中的应用。

针对这一问题,来自上海人工智能实验室和复旦大学的研究人员,在最近提出了一种全新的奖励模型POLAR,并开源了1.8B和7B两个参数规模的版本。

区别于传统的「基于绝对偏好」的奖励模型,POLAR采用了全新对比学习预训练范式,可以根据参考答案,灵活地对模型回复给出奖励分数

实测结果表明,POLAR已经充分展现出了一个出色「Grader」的潜质。

图片

论文链接:https://arxiv.org/abs/2507.05197

项目链接:https://github.com/InternLM/POLAR

模型链接:https://huggingface.co/internlm/POLAR-7B

我们将开篇提到的OpenAl生物基因领域官方样例输入POLAR,并构造了一些模型回复后发现,POLAR可以完美地给出正确的偏序关系!

回复一(与参考完全一致):

FOXE3 

分数:-0.278


回复二(正确答案Rank 1):

genes: [ FOXE3 , KDM5A, BBS5] 

分数-7.889


回复三(正确答案Rank 2):

genes: [BBS5, FOXE3 , KDM5A] 

分数-7.998


回复四(正确答案Rank 3):

genes: [KDM5A, BBS5, FOXE3 

分数-8.008


回复五(与正确答案相似的拼写错误):

genes: [FOXE2, KDM5A, BBS5] 

分数:-8.965


回复六(无正确答案):

genes: [CHD7, KDM5A, BBS5] 

分数-10.225


除此之外,POLAR对开放问题的回答也能基于参考样例给出正确的偏序:

问题:请用一句话幽默地概括《三体》第二部。


参考回复(点出了黑暗森林和关键情节):

人类靠一句「我告老师了」击退三体人的太空舰队。 


回复一(点出了黑暗森林和关键情节):

人类被三体人按在地上摩擦,最后靠罗辑「宇宙碰瓷」吓退专业团队。 

分数:-7.414


回复二(点出了黑暗森林):

罗辑苦思冥想一整本书,终于悟出真理:别乱发朋友圈,否则会被灭口。 

分数:-8.070


回复三(部分事实错误,二向箔是第三部内容):

全宇宙都在玩「黑暗森林」躲猫猫,人类却把「别杀我」的告示牌挂反了,结果引来了二向箔拆迁办。 

分数:-8.141


回复四(未点出黑暗森林):

面壁者在演悬疑剧,破壁者在演推理剧,三体人则在看荒诞剧。 

分数:-8.922


回复五(不够幽默):

危机纪元到来,人类选出「面壁者」进行心理博弈,最终用黑暗森林法则威慑住三体文明。 

分数:-9.742


问题:帮我想3个形容雨很大的成语,要求不能重复。


参考回复:

1. 倾盆大雨 2. 暴雨如注 3. 瓢泼大雨 


回复一(正确回答):

1. 大雨滂沱 2. 狂风骤雨 3. 大雨如注 

分数:-5.234


回复二(非成语):

1. 急雨如瀑 2. 豪雨倾天 3. 雨势磅礴 

分数:-5.707


回复三(与参考相似,重复一个):

1. 倾盆大雨 2. 暴雨如注 3. 暴雨如注 

分数:-6.656


回复四(成语正确,多一个):

1. 大雨滂沱 2. 狂风骤雨 3. 大雨如注 4. 倾盆大雨 

分数:-7.023


回复五(带雨字成语,两个含义不符):

1. 大雨滂沱 2. 雨过天晴 3. 雨后春笋

分数:-8.578


POLAR完美适配RFT强化学习框架,基于问题的参考答案对模型输出进行打分。如果模型输出与参考答案更为接近,则会获得更高的奖励值。

通过这一训练过程,可以使得策略模型逐步向最优策略的方向优化。


图片
POLAR是怎么训出来的


POLAR采用了一种与绝对偏好解耦的、可以真正高效扩展的奖励建模新范式:策略判别学习(Policy Discriminative Learning,POLAR),使奖励模型能够像大语言模型一样,具备可扩展性和强泛化能力。

图片

2:POLAR的两阶段训练(预训练和偏好微调)以及在RFT中的使用方法

与传统的基于「绝对偏好」的奖励建模方式不同,POLAR通过衡量训练策略与目标策略之间的「距离」来作为奖励信号。

当训练策略越接近目标策略时,POLAR就给予越高的奖励。

具体来说,POLAR使用了一种对比学习的方式做距离度量:同一个策略模型采样的结果作为正例,不同策略模型采样的结果作为负例

通过这种方式构造正负样本,形成无偏的优化目标。同时,把策略模型看作是某个分布的无偏采样器,通过刻画样本间差异来近似刻画策略之间的距离。

POLAR的预训练语料完全由自动化合成数据构建

具体而言,从LLM预训练语料中采样出大量的文本前缀,并从策略模型池中随机取模型进行轨迹采样。

这里的策略模型池由开源的131个Base LLM和53个Chat LLM组成,预训练目标使用Bradley-Terry Loss:

图片

其中,A1和A2代表相同策略模型生成的样本(正样本对);B1代表不同策略模型生成的样本(负样本)。

由于「距离」具有相对性,这里的A和B两个策略模型可以任意选取

例如,A1和A2可以是由Qwen 1.5B采样得到,B1可以由Qwen 72B采样得到。通过这种方式,POLAR的预训练语料是非常容易扩展的。

在实际的实验中,POLAR-1.8B共使用了0.94T token的预训练数据,POLAR-7B共使用了3.6T token的预训练数据。

通过预训练,POLAR可以为距离相近的策略产生的样本赋予更高奖励,从而隐式建模策略分布的差异和距离。

之后,POLAR在微调阶段可以使用很少量的偏好数据对齐人类偏好。

具体来说,对于同一个Prompt,采样三条轨迹,由人工标注偏好顺序。同样使用Bradley-Terry Loss进行微调:

图片

其中,A>B>C,分别代表偏好最优、次优、最差的轨迹。

这种偏好排序隐式定义了一种「策略差异」,例如A可以视为从最佳策略分布中采样得到,而C可以视为从一个与最佳策略相差较远的策略分布中采样得到。


图片
POLAR的Scaling效应


图片

3:POLAR的Scaling Law

POLAR展现出了与大语言模型Next Token Prediction目标类似的Scaling效应。这体现了POLAR无监督预训练方法的巨大潜力。

从图3可以观察到,验证集损失随模型参数N的增加呈幂律关系下降,拟合R值为0.9886;验证集损失也随最优训练计算量C的增加呈幂律关系下降,拟合的R值为0.9912。

这些结果表明,分配更多的计算资源将持续带来更好的POLAR性能

POLAR的极佳Scaling效应,体现出其用于构建更通用和更强大的奖励模型的巨大潜力,也有望打通RL链路扩展的最后一环。


图片
效果如何


POLAR通过对比学习预训练方法,不仅彻底摆脱了对大规模偏好数据的依赖,而且还可以大规模无监督扩展。

结果就是,POLAR仅靠1.8B~7B的参数量,便在下游RL效果上超越70B以上的SOTA奖励模型,显著增强了奖励模型的准确性和泛化性。

图片

4:偏好评估实验结果

在偏好评估方面,POLAR展现出优越的性能和全面性,在大多数任务维度上优于SOTA奖励模型。

例如,在STEM任务中,POLAR-1.8B和POLAR-7B分别超越了最佳基线24.9和26.2个百分点,并且能够准确识别推理、聊天、创意写作等通用任务中轨迹的细微区别,准确预测人类偏好。

值得注意的是,POLAR-1.8B仅有1.8B参数,就可取得与Skywork-Reward-27B和WorldPM-72B-UltraFeedback(参数量分别为其15倍和40倍)相当的结果。

图片

5:强化微调实验结果

在强化微调RFT实验中,POLAR持续优于SOTA的开源奖励模型。

例如,使用POLAR-7B微调的Llama-3.1-8B在所有基准测试中,相对于初始结果平均提升了9.0%,相对于WorldPM-72B-UltraFeedback优化的结果提升了6.7%。

POLAR能够从预训练阶段学习策略模型之间的细微区别,而不仅仅依赖于标注的偏好对,从而显著增强了实际RL应用时的奖励信号泛化性。

实验结果表明,尽管POLAR-1.8B和POLAR-7B在偏好评估中表现相似,但在下游RL实验中,POLAR-7B展现出了显著优势。

从1.8B到7B的效果提升,进一步说明了POLAR所具有的Scaling效应。这也侧面说明了当前传统Reward Bench可能存在的局限性,即与真实强化学习场景存在较大的差别。


图片
结语


大模型在Next Token Prediction和Test-time Scaling两种扩展范式下,通过大规模的数据和模型扩展,实现了能力的持续跃升。

但相比之下,传统奖励模型缺乏系统性的预训练和扩展方法,导致其能力难以随计算量增长而持续提升。而POLAR在奖励模型预训练和通用性的道路上迈出了坚实的一步。

POLAR在预训练阶段通过对比学习建模策略间的距离,无需大规模偏好数据。

在使用阶段,POLAR利用RFT范式对LLM进行强化学习,展现出了极佳的泛化性。

POLAR作为一种全新的、可扩展的奖励模型预训练方法,为LLM后训练带来了新的可能,让通用RFT多了一种有效实践方案。

最终,有望打通RL链路Scaling的最后一环。

参考资料:
https://arxiv.org/abs/2507.05197

☟☟☟

☞人工智能产业链联盟筹备组征集公告☜


精选报告推荐:

11份清华大学的DeepSeek教程,全都给你打包好了,直接领取:


【清华第一版】DeepSeek从入门到精通

【清华第二版】DeepSeek如何赋能职场应用?


【清华第三版】普通人如何抓住DeepSeek红利?

【清华第四版】DeepSeek+DeepResearch让科研像聊天一样简单?

【清华第五版】DeepSeek与AI幻觉

【清华第六版】DeepSeek赋能家庭教育

【清华第七版】文科生零基础AI编程:快速提升想象力和实操能力

【清华第八版】DeepSeek政务场景应用与解决方案

【清华第九版】迈向未来的AI教学实验

【清华第十版】DeepSeek赋能品牌传播与营销

【清华第十一版】2025AI赋能教育:高考志愿填报工具使用指南

 10份北京大学的DeepSeek教程

【北京大学第一版】DeepSeek与AIGC应用

【北京大学第二版】DeepSeek提示词工程和落地场景

【北京大学第三版】Deepseek 私有化部署和一体机

【北京大学第四版】DeepSeek原理与落地应用

【北京大学第五版】Deepseek应用场景中需要关注的十个安全问题和防范措施

【北京大学第六版】DeepSeek与新媒体运营

【北京大学第七版】DeepSeek原理与教育场景应用报告

【北京大学第八版】AI工具深度测评与选型指南

【北京大学第九版】AI+Agent与Agentic+AI的原理和应用洞察与未来展望

【北京大学第十版】DeepSeek在教育和学术领域的应用场景与案例(上中下合集)

8份浙江大学的DeepSeek专题系列教程

浙江大学DeepSeek专题系列一--吴飞:DeepSeek-回望AI三大主义与加强通识教育

浙江大学DeepSeek专题系列二--陈文智:Chatting or Acting-DeepSeek的突破边界与浙大先生的未来图景

浙江大学DeepSeek专题系列三--孙凌云:DeepSeek:智能时代的全面到来和人机协作的新常态

浙江大学DeepSeek专题系列四--王则可:DeepSeek模型优势:算力、成本角度解读

浙江大学DeepSeek专题系列五--陈静远:语言解码双生花:人类经验与AI算法的镜像之旅

浙江大学DeepSeek专题系列六--吴超:走向数字社会:从Deepseek到群体智慧

浙江大学DeepSeek专题系列七--朱朝阳:DeepSeek之火,可以燎原

浙江大学DeepSeek专题系列八--陈建海:DeepSeek的本地化部署与AI通识教育之未来

4份51CTO的《DeepSeek入门宝典》

51CTO:《DeepSeek入门宝典》:第1册-技术解析篇

51CTO:《DeepSeek入门宝典》:第2册-开发实战篇

51CTO:《DeepSeek入门宝典》:第3册-行业应用篇

51CTO:《DeepSeek入门宝典》:第4册-个人使用篇

5份厦门大学的DeepSeek教程

【厦门大学第一版】DeepSeek大模型概念、技术与应用实践

【厦门大学第二版】DeepSeek大模型赋能高校教学和科研

【厦门大学第三版】DeepSeek大模型及其企业应用实践

【厦门大学第四版】DeepSeek大模型赋能政府数字化转型

【厦门大学第五版】DeepSeek等大模型工具使用手册-实战篇

10份浙江大学的DeepSeek公开课第二季专题系列教程

【精选报告】浙江大学公开课第二季:《DeepSeek技术溯源及前沿探索》(附PDF下载)

【精选报告】浙江大学公开课第二季:2025从大模型、智能体到复杂AI应用系统的构建——以产业大脑为例(附PDF下载)

【精选报告】浙江大学公开课第二季:智能金融——AI驱动的金融变革(附PDF下载)

【精选报告】浙江大学公开课第二季:人工智能重塑科学与工程研究(附PDF下载)

【精选报告】浙江大学公开课第二季:生成式人工智能赋能智慧司法及相关思考(附PDF下载)

【精选报告】浙江大学公开课第二季:AI大模型如何破局传统医疗(附PDF下载)

【精选报告】浙江大学公开课第二季:2025年大模型:从单词接龙到行业落地报告(附PDF下载)

【精选报告】浙江大学公开课第二季:2025大小模型端云协同赋能人机交互报告(附PDF下载)

【精选报告】浙江大学公开课第二季:DeepSeek时代:让AI更懂中国文化的美与善(附PDF下载)

【精选报告】浙江大学公开课第二季:智能音乐生成:理解·反馈·融合(附PDF下载)

6份浙江大学的DeepSeek公开课第三季专题系列教程

【精选报告】浙江大学公开课第三季:走进海洋人工智能的未来(附PDF下载)

【精选报告】浙江大学公开课第三季:当艺术遇见AI:科艺融合的新探索(附PDF下载)

【精选报告】浙江大学公开课第三季:AI+BME,迈向智慧医疗健康——浙大的探索与实践(附PDF下载)

【精选报告】浙江大学公开课第三季:心理学与人工智能(附PDF下载)

【精选报告】浙江大学公开课第三季:人工智能赋能交通运输系统——关键技术与应用(附PDF下载)

【精选报告】浙江大学公开课第三季:人工智能与道德进步(附PDF下载)


相关阅读

干货推荐:
AI加油站】第一部:《大型语言模型应用检索增强生成:改变搜索、推荐和 AI 助手》附下载
【AI加油站】第二部:《程序员的自我修炼手册》(附下载)
【AI加油站】第三部:《大规模语言模型:从理论到实践》(附下载)
【AI加油站】第四部:《使用生成式人工智能和Python开始数据分析》(附下载)
【AI加油站】第五部:《使用生成式人工智能和Python开始数据分析》(附下载)
【AI加油站】第六部:《时间序列:建模、计算与推断》(附下载)
【AI加油站】第七部:《因果关系的逻辑理论的好书-A Logical Theory of Causality》(附下载)

【AI加油站】第八部:《模式识别(第四版)-模式识别与机器学习》(附下载)

【AI加油站】第九部:《Python深度学习(中文版)》(附下载)
【AI加油站】第十部:《机器学习方法》(附下载)
【AI加油站】第十一部:《深度学习》(附下载)
【AI加油站】第十二部:《从零开始的机器学习》(附下载)
【AI加油站】第十三部:《Transformer入门到精通》(附下载)
【AI加油站】第十四部:《LLM 应用开发实践笔记》(附下载)
【AI加油站】第十五部:《大模型基础 完整版》(附下载)
【AI加油站】第十六部:《从头训练大模型最佳实践》(附下载)
【AI加油站】第十七部:《大语言模型》(附下载)
【AI加油站】第十八部:《深度强化学习》(附下载)
【AI加油站】第十九部:清华大学《大模型技术》(附下载)
【AI加油站】第二十部:Prompt入门神书-《Prompt 学习指南》(附下载)
【AI加油站】第二十一部:吴恩达&open AI联合推出《大模型通关指南》(附下载)
【AI加油站】第二十二部:《李宏毅深度学习教程》值得反复阅读的神书!(附下载)
【AI加油站】第二十三部:Prompt经典中文教程-《提示工程指南》(附下载)
【AI加油站】第二十四部:爆火下载28万次!MIT最新神书《理解深度学习》(附下载)
【AI加油站】第二十五部:LLM4大名著,OpenAI专家强推《深度解析:大语言模型理论与实践》(附下载)
【AI加油站】第二十六部:NLP大牛Thomas Wolf等新书《Transformer自然语言处理》(附下载)
【AI加油站】第二十七部:哈工大博士耗时一年整理《PyTorch常用函数手册》,轻松掌握PyTorch的各种操作(附PDF下载)
【AI加油站】第二十八部:大模型炼丹大师必备《深度学习调优指南中文版-系统性优化模型》(附下载)
面试推荐:
【AI加油站】AI面试专题一:BIO,NIO,AIO,Netty面试题(附下载)
【AI加油站】AI面试专题二:Git常用命令面试题(附下载)
【AI加油站】AI面试专题三:Java常用面试题(附下载)
【AI加油站】AI面试专题四:Linux系统的面试题集(附下载)
【AI加油站】AI面试专题五:Memcached 面试题集(附下载)
【AI加油站】AI面试专题六:MyBatis框架的面试题(附下载)
【AI加油站】AI面试专题七:MySQL相关的面试题资料(附下载)
【AI加油站】AI面试专题八:Netty面试题资料(附下载)
【AI加油站】AI面试专题九:Nginx的面试题资料(附下载)
【AI加油站】AI面试专题十:RabbitMQ的面试题资料(附下载)
【AI加油站】AI面试专题十一:Redis的面试题资料(附PDF下载)
【AI加油站】AI面试专题十二:Spring的面试题资料(附PDF下载)
【AI加油站】AI面试专题十三:Apache Tomcat的面试题资料(附PDF下载)
【AI加油站】AI面试专题十四:Zookeeper的面试题资料(附PDF下载)
【AI加油站】AI面试专题十五:《阿里巴巴Java开发手册》终极版的面试题资料(附PDF下载)
【AI加油站】AI面试专题十六:大数据技术面试题资料(附PDF下载)
【AI加油站】AI面试专题十七:Java并发多线程面试题资料(附PDF下载)

人工智能产业链联盟高端社区




图片
精选主题推荐:
Manus学习手册
从零开始了解Manus

DeepSeek 高级使用指南,建议收藏

一次性说清楚DeepSeek,史上最全(建议收藏)

DeepSeek一分钟做一份PPT

用DeepSeek写爆款文章?自媒体人必看指南

【5分钟解锁DeepSeek王炸攻略】顶级AI玩法,解锁办公+创作新境界!

DeepSeek接入个人微信!24小时智能助理,随时召唤!
PS×Deepseek:一句话编写PS脚本,搞定PS批量导出图层
如何让AI给自己打工,10分钟创作一条爆款视频?
荐:
【中国风动漫】《姜子牙》刷屏背后,藏着中国动画100年内幕!
【中国风动漫】除了《哪吒》,这些良心国产动画也应该被更多人知道!

【中国风动漫】《雾山五行》大火,却很少人知道它的前身《岁城璃心》一个拿着十米大刀的男主夭折!

图片
声明

免责声明:部分文章和信息来源于互联网,不代表本订阅号赞同其观点和对其真实性负责。如转载内容涉及版权等问题,请立即与小编联系(微信号:913572853),我们将迅速采取适当的措施。本订阅号原创内容,转载需授权,并注明作者和出处。如需投稿请与小助理联系(微信号:AI480908961)

编辑:Zero

图片


图片
图片

图片

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI
Copyright © 2025 成都科技区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号