ACL 2026 | 延迟降 62%，腾讯混元提出 E-GRM：让大模型学会"按需推理"

ACL 2026 | 延迟降 62%，腾讯混元提出 E-GRM：让大模型学会"按需推理"图1

> 本文来自社区投稿

引言

在生成式AI快步走向产业化的今天，每一次不必要的推理都在消耗真实的算力成本。ACL 2026上，腾讯混元与新南威尔士大学联合提出的E-GRM（高效生成式奖励模型）给出了一个方向性的回答：让模型学会判断问题是否值得深度思考。本文从问题背景、技术原理、训练机制到实验证据，对E-GRM进行结构化的完整解析，呈现这套“按需推理”框架的设计考量与实证效果。

ACL 2026 | 延迟降 62%，腾讯混元提出 E-GRM：让大模型学会"按需推理"图2

论文标题：Reason Only When Needed: Efficient Generative Reward Modeling via Model-Internal Uncertainty
收录会议：ACL 2026
arXiv 链接：https://arxiv.org/abs/2604.10072
作者单位：腾讯混元 & 新南威尔士大学（UNSW）
领域：LLM 高效推理 / 生成式奖励模型 / 推理优化
关键词：E-GRM, Dynamic CoT Trigger, Model-Internal Uncertainty, Discriminative Scoring, GRM, Efficiency, Reward Fidelity

1. 问题的起点：GRM为什么要学会“偷懒”？

生成式奖励模型（GRM）通过思维链（CoT）提示技术让LLM在评估响应时“边想边评”。然而，现有GRM的设计存在一个根本问题——它“太勤快了”。无论面对的是一个简单的二元安全判断，还是一个复杂的多步数学证明，模型都被要求执行同样的完整推理流程。

1.1 两个维度的浪费

第一是计算浪费。简单问题占据了输入流中的相当比例，对它们执行完整的CoT推理是一次巨大的资源错配。

第二是评估信息浪费。多数GRM使用投票来确定最佳答案——多条推理链各自给出判断，选择获得最多支持的答案。这个过程将每条推理链压缩为一个“赞成/反对”的标签，丢弃了推理质量的连续信息。

1.2 E-GRM的解法

E-GRM拒绝这种“一刀切”的处理方式。它的核心主张是：首先判断问题是否真的需要推理，只在必要时投入完整的CoT生成；其次，如果需要推理，用精细的连续评分替代粗糙的离散投票。

ACL 2026 | 延迟降 62%，腾讯混元提出 E-GRM：让大模型学会"按需推理"图3

图1：E-GRM框架的多领域应用全景。

2. 动态CoT触发：解码行为的智能解读

2.1 核心假设

E-GRM动态触发的核心假设可以这样表述：对同一个输入进行多次解码，如果答案高度一致，说明模型对这个问题“了然于胸”；如果答案分歧很大，说明问题确实需要仔细推敲。

2.2 共识度的计算

假设对输入x执行M次并行解码，每次使用略微不同的采样参数。产生M个答案后，计算最频繁出现的答案所占的比例：

当M=5时，如果所有解码都给出相同答案，共识度为1.0；如果出现最多的答案仅出现3次，共识度为0.6。

2.3 路由决策

E-GRM基于共识度做出决策：

短路径（共识度≥0.8）意味着模型对答案有充分把握——直接输出最高频答案，整个CoT推理被跳过。长路径（共识度<0.8）意味着模型确实不确定——此时才触发完整的推理生成流程。

2.4 阈值选择的系统分析

阈值并非随意设定，而是在开发集上通过对效率-精度权衡的系统分析确定的。具体而言：

高阈值区间（）：路审条件过于严格，短路径比例下降至30%以下，延迟仅缩短约15%，效率收益大幅折扣。
低阈值区间（）：路审条件过于宽松，部分复杂样本被草率判定为短路径，准确率出现1-2个百分点的下降。
最优区间（）：短路径比例稳定在55%-65%，延迟降低50%-65%，准确率持平甚至略高。

这一分析表明，E-GRM对阈值的选取较为鲁棒——在0.75-0.85的宽区间内均能取得接近最优的效果。

在MATH数据集上，58%的样本共识度超过0.8，自动进入短路径。这一比例表明：即便在传统意义上被认为“困难”的数学竞赛数据集中，模型对超过半数的问题也具有直接回答的能力。

表1：MATH上不同路由策略的对比

路由策略	准确率	延迟	是否需要领域适配
全量推理（Forced-CoT）	75.1%	3.8s	否
规则式（Rule-based）	70.5%	2.1s	是
特征式（AdaCoT）	76.8%	2.9s	是
共识度式（E-GRM）	78.4%	2.2s	否

3. 判别式评分器：替代投票的精细质量评估

3.1 设计目标

动态触发回答了“要不要推理”，而进入长路径后，新的问题是“哪条推理路径最好”。传统方法通过投票来解决——但这会丢失推理质量的连续信息。E-GRM的解决方案是一个轻量级的判别式评分模块，输出。

3.2 混合损失

评分器通过混合损失进行训练：

Huber损失：它结合了MSE的小误差敏感性和MAE的大误差鲁棒性。这使评分器能精准学习高质量推理的分值，同时不被少量极端错误标注的样本带偏。Huber损失的数学形式为：

其中控制切换点（论文设为1.0），在小误差区以二次惩罚精细调优，在大误差区以线性惩罚抑制异常标签的过度影响。

铰链损失：它的惩罚仅在正负样本分差不足时触发——当评分器已经能正确区分推理质量时，损失为零；只有当区分不清晰时，才产生优化信号。这使训练自动聚焦于"难例"。

3.3 训练数据的构造策略

评分器的训练数据构造是影响其性能的关键因素。E-GRM采用以下两种策略构造正负样本对：

答案正确性作为弱监督：以最终答案是否正确作为标签依据。答案正确的推理链标记为正样本，错误的标记为负样本。
困难样本挖掘：利用当前评分器的预测结果，筛选出评分接近但推理质量差异显著的样本对——如分数同为0.7左右但一个逻辑严密、一个包含逻辑跳跃的样本对。

3.4 在奖励建模中的枢纽作用

评分器既用于推理（从候选CoT中选最优），也用于训练（作为扩展GRPO的奖励信号）。它在整个E-GRM框架中扮演着“质量中枢”的角色。

ACL 2026 | 延迟降 62%，腾讯混元提出 E-GRM：让大模型学会"按需推理"图4

图2：E-GRM的训练与推理流程全景图。

4. 两阶段训练：内化“按需推理”的能力

4.1 SFT阶段：路有两条各走一边

监督微调（SFT）是E-GRM训练的第一阶段。利用与推理相同的共识度计算结果，训练集被自然划分为两部分。短路径样本上，模型学习“直接给答案”的简单映射。长路径样本上，模型学习“先推理再回答”的完整模式。这种双轨训练保证模型同时在“快速判断”和“深度推理”两条路径上都得到充分训练。

4.2 扩展GRPO阶段：对比信号驱动优化

第二阶段的偏好优化中，E-GRM扩展了标准GRPO的目标。其奖励函数引入了成对对比：

第一项确保答案正确是获得高奖励的前提。第二项利用评分器的差异给质量更好的推理路径更高的奖励。两者的协同使优化过程兼顾了“至少答案要对”的安全底线和“推理越严谨奖励越高”的质量牵引。KL散度正则项约束策略更新幅度，保证训练稳定：

ACL 2026 | 延迟降 62%，腾讯混元提出 E-GRM：让大模型学会"按需推理"图5

图3：Coupled-GRPO的成对偏好奖励机制示意图。

4.3 推理管道

E-GRM的推理流程可以概括为五个步骤：(1)对输入并行解码M次→(2)计算共识度→(3)若≥τ直接输出答案→(4)若<τ则生成K条推理链→(5)评分器打分选最优输出。

5. 实验全景

研究者从三个维度对 E-GRM 进行了全面验证：在 RM-Bench、RMB 和 RewardBench 三大基准上检验整体性能，在 MATH 数据集上量化效率提升，以及通过消融实验分离各组件的贡献。

5.1 基准性能

E-GRM 在 Qwen-Instruct 架构的 7B、14B 和 32B 三个规模上都进行了完整评估。在 RM-Bench 上，32B 模型取得了 79.2% 的平均分，在数学推理（80.0%）和安全对齐（94.2%）两个维度上表现尤为突出。从 7B（70.1%）到 32B 的阶梯式提升表明，E-GRM 的收益能够稳定地随模型规模放大。

ACL 2026 | 延迟降 62%，腾讯混元提出 E-GRM：让大模型学会"按需推理"图6

RMB 基准的测试更为严格：它模拟了 49 个真实应用场景下的 25,845 条评估样本，同时考察有用性和无害性两个对齐目标。32B 模型以 0.743 的总分超越 GPT-4o（0.738），其中在 Harmlessness 维度上排名第一（Pairwise: 0.823）。

ACL 2026 | 延迟降 62%，腾讯混元提出 E-GRM：让大模型学会"按需推理"图7

RewardBench 提供了第四个维度的验证——在 Chat、Chat_Hard、Safety 和 Reasoning 四个子任务上，32B 模型的综合得分达到 91.5%，超过此前最优的 GenRM 模型 Self-taught-evaluator-llama3.1-70B（90.0%）。其中 Reasoning 维度 95.4% 的得分尤为亮眼。值得注意的是，即使 14B（88.4%）和 7B（85.3%）的小模型也能超越 DeepSeek-GRM-27B（86.0%）等更大型的专用模型，说明架构创新本身就能带来超越参数规模的效果。

ACL 2026 | 延迟降 62%，腾讯混元提出 E-GRM：让大模型学会"按需推理"图8

5.2 效率提升：共识度路由的实际效果

上述性能提升的实现代价是什么？在 MATH 数据集上，E-GRM 将 58% 的样本路由到短路径——模型对这些问题的答案高度自信，直接输出结果而跳过 CoT 推理。这个比例本身就说明了问题：即便在传统意义上被认为困难的数学竞赛数据中，模型对超过半数的问题也能给出确定性的回答。

路由机制带来的效率收益是实打实的：平均延迟从 3.8 秒降至 2.2 秒（降低 62%），FLOPs 从 23.7T 降至 15.7T（节省 49%）。与此同时，准确率不降反升——从 75.1% 提升到 78.4%（+3.3%）。这一组数字放在一起看，才能真正理解按需推理的价值：不仅省了算力，推理质量也更高。

ACL 2026 | 延迟降 62%，腾讯混元提出 E-GRM：让大模型学会"按需推理"图9

5.3 消融实验：每个组件都在为什么而战

为了验证 E-GRM 各组件的必要性，研究者在 MATH 数据集上对 14B 模型进行了系统消融。完整的 E-GRM 达到了 78.4% 的准确率，这是动态触发、判别式评分器和扩展 GRPO 三方协作的结果。

移除动态触发机制后，模型被迫对所有样本执行完整 CoT，准确率下降到 75.2%，FLOPs 增加 49%，延迟上升 55%。这说明不必要的 CoT 不仅是效率浪费——对简单问题强行推理反而会引入额外的推理错误。

移除判别式评分器（改用多数投票）导致的准确率降幅最大，从 78.4% 降至 72.8%，下降了 5.6 个百分点。人工分析错误样本后发现，投票机制经常选出一致但错误率高的推理路径——恰好是混合损失评分器着力解决的核心失效模式。

组件消融（MATH, 14B）	准确率	FLOPs	延迟
完整 E-GRM	78.4%	15.7T	2.2s
无动态触发	75.2%	23.4T	3.4s
无判别评分器	72.8%	15.9T	2.2s
基线 GRM	69.1%	23.7T	3.6s

在 GRPO 训练策略的消融中，扩展 GRPO 相比标准 GRPO 在所有指标上均取得了一致性提升。这表明，当配对偏好数据可用时，显式地围绕正负样本对构造奖励信号，比纯群组相对比较能提供更稳定的学习信号。

GRPO 消融	MATH	HelpSteer2	Harmlessness
标准 GRPO	76.9	81.5	0.765
扩展 GRPO	78.4	82.3	0.775

5.4 模型规模与阈值鲁棒性

两个附加实验进一步揭示了 E-GRM 的工程特性。首先，从 7B 到 32B 的扩展实验中，模型规模越大，E-GRM 的效率优势越突出：32B 模型节省的绝对 FLOPs（约 8T）是 7B 模型（约 3T）的近三倍，而精度提升幅度也更大（+3.3% vs +2.1%）。简单来说，大模型用 E-GRM 的性价比最高——因为大模型单次推理的代价更昂贵，E-GRM 按需跳过的绝对收益也就更大。

其次，共识度阈值 τ 在 [0.75, 0.85] 的宽区间内都表现稳定，τ = 0.8 是效率与精度的最佳平衡点。具体来说，τ 每增加 0.05，短路径比例下降约 6-8 个百分点，延迟增加约 0.3-0.5 秒，但准确率的变化幅度仅在 ±0.3% 以内。这种对阈值选择的宽容度意味着，在实际部署中不需要为了寻找最优阈值而反复调参——即使阈值偏离了理想值，性能退化也在可接受范围内。

6. 贡献与讨论

E-GRM 的核心创新可以概括为三个层面的突破。最底层的是信号层面的创新：将模型自身的解码行为——多次采样的答案分歧程度——转化为一个任务无关的路由信号。这一步的关键洞见在于，模型对自己有多自信这个信息本来就在每次解码中免费产生，不需要额外的标注或辅助模型，而现有工作完全忽略了这一信号。

中间层是评分机制的创新：用混合损失训练的判别式评分器替代多数投票。Huber 损失让小误差的惩罚更敏感、大误差的惩罚更鲁棒，铰链损失则将训练自动聚焦于区分不清的难例。两者的结合让评分器既能精准地区分推理质量的差异，又不会被少量标注错误的极端样本带偏。

最上层是训练框架的创新：将动态触发、判别式评分和策略优化统一到同一个端到端的流程中。扩展 GRPO 的成对奖励函数将答案正确性和推理质量差异两个信号协同起来——前者确保安全底线，后者牵引质量上限。

这些创新带来的实际价值是明确的：在 MATH 数据集上，延迟降低 62%、FLOPs 节省 49% 的同时，准确率反而提升了 3.3%。对于正在将大模型推向生产环境的人来说，这个结果指向了一个重要方向——效率优化的入口，有时不在怎么跑得更快，而在怎么少跑一些不该跑的。

当然，E-GRM 也存在值得关注的局限。并行解码带来的约 5% 固定开销在极端延迟敏感的场景中不可忽略；固定阈值 τ = 0.8 在分布外数据上的最优性尚待验证；评分器的跨领域泛化能力则是一个更根本的开放问题，需要未来工作进一步探索。

7. 总结

E-GRM 向我们展示了一种更聪明的推理范式：不在简单问题上浪费算力，在复杂问题上尽可能精准。它以共识度这一简洁信号为支点，撬动了效率与精度的双重收益。对于正在推动大模型落地的从业者，这项工作的重要启示是：效率优化的入口，有时不在如何推理得更快，而在如何少做一些不必要的推理。

-- 完 --

加入机智流 Pro，1 天一块钱，AI 能力指数级增长时代，不掉队。机智流 AI 团队将燃烧远超人类的智能的 AI Tokens 驱动 AI Agents 军团带来「与你有关」「对你有用」的高质量资讯/研报。

机智流推荐阅读：

1. ‍

关注机智流并加入 AI 技术交流群，不仅能和来自大厂名校的 AI 开发者、爱好者一起进行技术交流，同时还有与、、、、等。

在「机智流」公众号后台回复下方标红内容即可加入对应群聊：

cc | 大模型技术交流群
hf | HuggingFace 高赞论文分享群
lc｜LangChain 技术交流群
code | AI Coding 交流群
具身 | 具身智能交流群
硬件 | AI 硬件交流群
推理 | AI 推理框架交流群
Agent | Agent 技术交流群