ACL 2026 | 延迟降 62%,腾讯混元提出 E-GRM:让大模型学会"按需推理"

机智流 2026-06-19 18:00

ACL 2026 | 延迟降 62%,腾讯混元提出 E-GRM:让大模型学会"按需推理"图1


> 本文来自社区投稿

引言

在生成式AI快步走向产业化的今天,每一次不必要的推理都在消耗真实的算力成本。ACL 2026上,腾讯混元与新南威尔士大学联合提出的E-GRM(高效生成式奖励模型)给出了一个方向性的回答:让模型学会判断问题是否值得深度思考。本文从问题背景、技术原理、训练机制到实验证据,对E-GRM进行结构化的完整解析,呈现这套“按需推理”框架的设计考量与实证效果。

ACL 2026 | 延迟降 62%,腾讯混元提出 E-GRM:让大模型学会"按需推理"图2

论文标题:Reason Only When Needed: Efficient Generative Reward Modeling via Model-Internal Uncertainty

收录会议:ACL 2026

arXiv 链接:https://arxiv.org/abs/2604.10072

作者单位:腾讯混元 & 新南威尔士大学(UNSW)

领域:LLM 高效推理 / 生成式奖励模型 / 推理优化

关键词:E-GRM, Dynamic CoT Trigger, Model-Internal Uncertainty, Discriminative Scoring, GRM, Efficiency, Reward Fidelity

1. 问题的起点:GRM为什么要学会“偷懒”?

生成式奖励模型(GRM)通过思维链(CoT)提示技术让LLM在评估响应时“边想边评”。然而,现有GRM的设计存在一个根本问题——它“太勤快了”。无论面对的是一个简单的二元安全判断,还是一个复杂的多步数学证明,模型都被要求执行同样的完整推理流程。

1.1 两个维度的浪费

第一是计算浪费。简单问题占据了输入流中的相当比例,对它们执行完整的CoT推理是一次巨大的资源错配。

第二是评估信息浪费。多数GRM使用投票来确定最佳答案——多条推理链各自给出判断,选择获得最多支持的答案。这个过程将每条推理链压缩为一个“赞成/反对”的标签,丢弃了推理质量的连续信息。

1.2 E-GRM的解法

E-GRM拒绝这种“一刀切”的处理方式。它的核心主张是:首先判断问题是否真的需要推理,只在必要时投入完整的CoT生成;其次,如果需要推理,用精细的连续评分替代粗糙的离散投票

ACL 2026 | 延迟降 62%,腾讯混元提出 E-GRM:让大模型学会"按需推理"图3

图1:E-GRM框架的多领域应用全景。

2. 动态CoT触发:解码行为的智能解读

2.1 核心假设

E-GRM动态触发的核心假设可以这样表述:对同一个输入进行多次解码,如果答案高度一致,说明模型对这个问题“了然于胸”;如果答案分歧很大,说明问题确实需要仔细推敲。

2.2 共识度的计算

假设对输入x执行M次并行解码,每次使用略微不同的采样参数。产生M个答案后,计算最频繁出现的答案所占的比例:

当M=5时,如果所有解码都给出相同答案,共识度为1.0;如果出现最多的答案仅出现3次,共识度为0.6。

2.3 路由决策

E-GRM基于共识度做出决策:

短路径(共识度≥0.8)意味着模型对答案有充分把握——直接输出最高频答案,整个CoT推理被跳过。长路径(共识度<0.8)意味着模型确实不确定——此时才触发完整的推理生成流程。

2.4 阈值选择的系统分析

阈值  并非随意设定,而是在开发集上通过对效率-精度权衡的系统分析确定的。具体而言:

  • 高阈值区间(:路审条件过于严格,短路径比例下降至30%以下,延迟仅缩短约15%,效率收益大幅折扣。
  • 低阈值区间(:路审条件过于宽松,部分复杂样本被草率判定为短路径,准确率出现1-2个百分点的下降。
  • 最优区间(:短路径比例稳定在55%-65%,延迟降低50%-65%,准确率持平甚至略高。

这一分析表明,E-GRM对阈值的选取较为鲁棒——在0.75-0.85的宽区间内均能取得接近最优的效果。

在MATH数据集上,58%的样本共识度超过0.8,自动进入短路径。这一比例表明:即便在传统意义上被认为“困难”的数学竞赛数据集中,模型对超过半数的问题也具有直接回答的能力

表1:MATH上不同路由策略的对比

路由策略
准确率
延迟
是否需要领域适配
全量推理(Forced-CoT)
75.1%
3.8s
规则式(Rule-based)
70.5%
2.1s
特征式(AdaCoT)
76.8%
2.9s
共识度式(E-GRM)78.4%2.2s

3. 判别式评分器:替代投票的精细质量评估

3.1 设计目标

动态触发回答了“要不要推理”,而进入长路径后,新的问题是“哪条推理路径最好”。传统方法通过投票来解决——但这会丢失推理质量的连续信息。E-GRM的解决方案是一个轻量级的判别式评分模块,输出

3.2 混合损失

评分器通过混合损失进行训练:

  • Huber损失:它结合了MSE的小误差敏感性和MAE的大误差鲁棒性。这使评分器能精准学习高质量推理的分值,同时不被少量极端错误标注的样本带偏。Huber损失的数学形式为:

其中  控制切换点(论文设为1.0),在小误差区以二次惩罚精细调优,在大误差区以线性惩罚抑制异常标签的过度影响。

  • 铰链损失:它的惩罚仅在正负样本分差不足时触发——当评分器已经能正确区分推理质量时,损失为零;只有当区分不清晰时,才产生优化信号。这使训练自动聚焦于"难例"。

3.3 训练数据的构造策略

评分器的训练数据构造是影响其性能的关键因素。E-GRM采用以下两种策略构造正负样本对 

  1. 答案正确性作为弱监督:以最终答案是否正确作为标签依据。答案正确的推理链标记为正样本 ,错误的标记为负样本 
  2. 困难样本挖掘:利用当前评分器的预测结果,筛选出评分接近但推理质量差异显著的样本对——如分数同为0.7左右但一个逻辑严密、一个包含逻辑跳跃的样本对。

3.4 在奖励建模中的枢纽作用

评分器既用于推理(从候选CoT中选最优),也用于训练(作为扩展GRPO的奖励信号)。它在整个E-GRM框架中扮演着“质量中枢”的角色。

ACL 2026 | 延迟降 62%,腾讯混元提出 E-GRM:让大模型学会"按需推理"图4

图2:E-GRM的训练与推理流程全景图。

4. 两阶段训练:内化“按需推理”的能力

4.1 SFT阶段:路有两条各走一边

监督微调(SFT)是E-GRM训练的第一阶段。利用与推理相同的共识度计算结果,训练集被自然划分为两部分。短路径样本上,模型学习“直接给答案”的简单映射。长路径样本上,模型学习“先推理再回答”的完整模式。这种双轨训练保证模型同时在“快速判断”和“深度推理”两条路径上都得到充分训练。

4.2 扩展GRPO阶段:对比信号驱动优化

第二阶段的偏好优化中,E-GRM扩展了标准GRPO的目标。其奖励函数引入了成对对比:

第一项确保答案正确是获得高奖励的前提。第二项利用评分器的差异给质量更好的推理路径更高的奖励。两者的协同使优化过程兼顾了“至少答案要对”的安全底线和“推理越严谨奖励越高”的质量牵引。KL散度正则项约束策略更新幅度,保证训练稳定:

ACL 2026 | 延迟降 62%,腾讯混元提出 E-GRM:让大模型学会"按需推理"图5

图3:Coupled-GRPO的成对偏好奖励机制示意图。

4.3 推理管道

E-GRM的推理流程可以概括为五个步骤:(1)对输入并行解码M次→(2)计算共识度→(3)若≥τ直接输出答案→(4)若<τ则生成K条推理链→(5)评分器打分选最优输出。

5. 实验全景

研究者从三个维度对 E-GRM 进行了全面验证:在 RM-Bench、RMB 和 RewardBench 三大基准上检验整体性能,在 MATH 数据集上量化效率提升,以及通过消融实验分离各组件的贡献。

5.1 基准性能

E-GRM 在 Qwen-Instruct 架构的 7B、14B 和 32B 三个规模上都进行了完整评估。在 RM-Bench 上,32B 模型取得了 79.2% 的平均分,在数学推理(80.0%)和安全对齐(94.2%)两个维度上表现尤为突出。从 7B(70.1%)到 32B 的阶梯式提升表明,E-GRM 的收益能够稳定地随模型规模放大。

ACL 2026 | 延迟降 62%,腾讯混元提出 E-GRM:让大模型学会"按需推理"图6

RMB 基准的测试更为严格:它模拟了 49 个真实应用场景下的 25,845 条评估样本,同时考察有用性和无害性两个对齐目标。32B 模型以 0.743 的总分超越 GPT-4o(0.738),其中在 Harmlessness 维度上排名第一(Pairwise: 0.823)。

ACL 2026 | 延迟降 62%,腾讯混元提出 E-GRM:让大模型学会"按需推理"图7

RewardBench 提供了第四个维度的验证——在 Chat、Chat_Hard、Safety 和 Reasoning 四个子任务上,32B 模型的综合得分达到 91.5%,超过此前最优的 GenRM 模型 Self-taught-evaluator-llama3.1-70B(90.0%)。其中 Reasoning 维度 95.4% 的得分尤为亮眼。值得注意的是,即使 14B(88.4%)和 7B(85.3%)的小模型也能超越 DeepSeek-GRM-27B(86.0%)等更大型的专用模型,说明架构创新本身就能带来超越参数规模的效果。

ACL 2026 | 延迟降 62%,腾讯混元提出 E-GRM:让大模型学会"按需推理"图8

5.2 效率提升:共识度路由的实际效果

上述性能提升的实现代价是什么?在 MATH 数据集上,E-GRM 将 58% 的样本路由到短路径——模型对这些问题的答案高度自信,直接输出结果而跳过 CoT 推理。这个比例本身就说明了问题:即便在传统意义上被认为困难的数学竞赛数据中,模型对超过半数的问题也能给出确定性的回答。

路由机制带来的效率收益是实打实的:平均延迟从 3.8 秒降至 2.2 秒(降低 62%),FLOPs 从 23.7T 降至 15.7T(节省 49%)。与此同时,准确率不降反升——从 75.1% 提升到 78.4%(+3.3%)。这一组数字放在一起看,才能真正理解按需推理的价值:不仅省了算力,推理质量也更高。

ACL 2026 | 延迟降 62%,腾讯混元提出 E-GRM:让大模型学会"按需推理"图9

5.3 消融实验:每个组件都在为什么而战

为了验证 E-GRM 各组件的必要性,研究者在 MATH 数据集上对 14B 模型进行了系统消融。完整的 E-GRM 达到了 78.4% 的准确率,这是动态触发、判别式评分器和扩展 GRPO 三方协作的结果。

移除动态触发机制后,模型被迫对所有样本执行完整 CoT,准确率下降到 75.2%,FLOPs 增加 49%,延迟上升 55%。这说明不必要的 CoT 不仅是效率浪费——对简单问题强行推理反而会引入额外的推理错误。

移除判别式评分器(改用多数投票)导致的准确率降幅最大,从 78.4% 降至 72.8%,下降了 5.6 个百分点。人工分析错误样本后发现,投票机制经常选出一致但错误率高的推理路径——恰好是混合损失评分器着力解决的核心失效模式。

组件消融(MATH, 14B)
准确率
FLOPs
延迟
完整 E-GRM
78.4%
15.7T
2.2s
无动态触发
75.2%
23.4T
3.4s
无判别评分器
72.8%
15.9T
2.2s
基线 GRM
69.1%
23.7T
3.6s

在 GRPO 训练策略的消融中,扩展 GRPO 相比标准 GRPO 在所有指标上均取得了一致性提升。这表明,当配对偏好数据可用时,显式地围绕正负样本对构造奖励信号,比纯群组相对比较能提供更稳定的学习信号。

GRPO 消融
MATH
HelpSteer2
Harmlessness
标准 GRPO
76.9
81.5
0.765
扩展 GRPO78.482.30.775

5.4 模型规模与阈值鲁棒性

两个附加实验进一步揭示了 E-GRM 的工程特性。首先,从 7B 到 32B 的扩展实验中,模型规模越大,E-GRM 的效率优势越突出:32B 模型节省的绝对 FLOPs(约 8T)是 7B 模型(约 3T)的近三倍,而精度提升幅度也更大(+3.3% vs +2.1%)。简单来说,大模型用 E-GRM 的性价比最高——因为大模型单次推理的代价更昂贵,E-GRM 按需跳过的绝对收益也就更大。

其次,共识度阈值 τ 在 [0.75, 0.85] 的宽区间内都表现稳定,τ = 0.8 是效率与精度的最佳平衡点。具体来说,τ 每增加 0.05,短路径比例下降约 6-8 个百分点,延迟增加约 0.3-0.5 秒,但准确率的变化幅度仅在 ±0.3% 以内。这种对阈值选择的宽容度意味着,在实际部署中不需要为了寻找最优阈值而反复调参——即使阈值偏离了理想值,性能退化也在可接受范围内。

6. 贡献与讨论

E-GRM 的核心创新可以概括为三个层面的突破。最底层的是信号层面的创新:将模型自身的解码行为——多次采样的答案分歧程度——转化为一个任务无关的路由信号。这一步的关键洞见在于,模型对自己有多自信这个信息本来就在每次解码中免费产生,不需要额外的标注或辅助模型,而现有工作完全忽略了这一信号。

中间层是评分机制的创新:用混合损失训练的判别式评分器替代多数投票。Huber 损失让小误差的惩罚更敏感、大误差的惩罚更鲁棒,铰链损失则将训练自动聚焦于区分不清的难例。两者的结合让评分器既能精准地区分推理质量的差异,又不会被少量标注错误的极端样本带偏。

最上层是训练框架的创新:将动态触发、判别式评分和策略优化统一到同一个端到端的流程中。扩展 GRPO 的成对奖励函数将答案正确性和推理质量差异两个信号协同起来——前者确保安全底线,后者牵引质量上限。

这些创新带来的实际价值是明确的:在 MATH 数据集上,延迟降低 62%、FLOPs 节省 49% 的同时,准确率反而提升了 3.3%。对于正在将大模型推向生产环境的人来说,这个结果指向了一个重要方向——效率优化的入口,有时不在怎么跑得更快,而在怎么少跑一些不该跑的

当然,E-GRM 也存在值得关注的局限。并行解码带来的约 5% 固定开销在极端延迟敏感的场景中不可忽略;固定阈值 τ = 0.8 在分布外数据上的最优性尚待验证;评分器的跨领域泛化能力则是一个更根本的开放问题,需要未来工作进一步探索。

7. 总结

E-GRM 向我们展示了一种更聪明的推理范式:不在简单问题上浪费算力,在复杂问题上尽可能精准。它以共识度这一简洁信号为支点,撬动了效率与精度的双重收益。对于正在推动大模型落地的从业者,这项工作的重要启示是:效率优化的入口,有时不在如何推理得更快,而在如何少做一些不必要的推理


-- 完 --


加入机智流 Pro,1 天一块钱,AI 能力指数级增长时代,不掉队。机智流 AI 团队将燃烧远超人类的智能的 AI Tokens 驱动 AI Agents 军团带来「与你有关」「对你有用」的高质量资讯/研报。


机智流推荐阅读

1. 

2. 

3. 

4. 

关注机智流并加入 AI 技术交流群,不仅能和来自大厂名校的 AI 开发者、爱好者一起进行技术交流,同时还有等。
在「机智流」公众号后台回复下方标红内容即可加入对应群聊:
  • cc | 大模型技术交流群
  • hf | HuggingFace 高赞论文分享群
  • lc|LangChain 技术交流群
  • code | AI Coding 交流群
  • 具身 | 具身智能交流群
  • 硬件 | AI 硬件交流群
  • 推理 | AI 推理框架交流群
  • Agent | Agent 技术交流群

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
大模型
more
「千问」险成北京大厂的大模型名称;初代模型创始人深夜查岗,怒问为什么没人爱工作;算力黑洞致手机厂项目延期丨AI情报局
开源大模型怎么在本地跑起来?一文讲透 Ollama 部署与调用
ACL 2026 | 延迟降 62%,腾讯混元提出 E-GRM:让大模型学会"按需推理"
刚刚,华为发布大量AI新成果!余承东:要把盘古大模型做到世界第一
ms-swift 视觉大模型调优与部署实战(上):VLM 基础与模型调用
云知声U2冲进第一梯队,大模型开始比拼“智能密度”|甲子光年
ICML 2026 | 大模型为什么算不对加法?南大团队提出等本位和轨迹,揭示LLM算术错误的几何机制
首个实时交互音频大模型Audio-Interaction问世!南洋理工等团队开启实时“感知-决策-响应”的音频交互新范式
看不清就乱答?多模态大模型的这个毛病终于有解了 | ICML 2026
SpaceX市值升至2.1万亿美元/大疆起诉影石,影石反诉/余承东:要带盘古大模型走向世界第一
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号