TRM思考奖励模型上线，大模型推理质量终于能量化了

TRM团队投稿
量子位 | 公众号 QbitAI

大模型推理能力越来越强，但答案对了，思考过程就一定好吗？

就像是同一道数学题，两个学生都做对了。

一个步骤干净、推导紧凑、思路顺畅；另一个绕了大段无关推导，跳过关键步骤，最后却也凑出了正确答案。

只看结果，两份答卷都对。但若要选一份更值得学习的解题过程，显然是前者。

大模型推理也面临类似问题。

模型在给出最终回答前，往往会生成一段动辄数千甚至上万token的reasoning trace：里面有探索、反思、修正，也有重复打转、跳步，以及看似完整却经不起推敲的“伪证”。

可绝大多数评测和奖励信号，只看最终答案对不对，这就悄悄抹平了“思考过程的高下”。

什么样的思考过程算好？一段自由形式的推理链，如何被稳定评估？这种评估信号，又能否反过来帮助模型学会更好的推理方式？

针对这一问题，来自上海人工智能实验室、上海交通大学、香港中文大学的研究团队提出了TRM（Thinking Reward Model）：

不再只看大模型“答没答对”，而是直接给它的推理过程打分，把“想得好”变成可度量、可训练、可优化的能力。

TRM思考奖励模型上线，大模型推理质量终于能量化了 | ICML‘26 Oral图1

具体来说，团队提出了一套统一框架：用ME² principle刻画推理质量，用DAG-based pairwise evaluation还原推理结构，并在此之上训练Thinking Reward Model，把“推理质量”从主观感受变成可复用的奖励信号。

为什么“答案对不对”已经不够用了？

过去很多大模型评测，主要看最终答案是否正确。对于问答题、代码题来说，这种方式很直接：答对得分，答错不得分。

但对于推理模型而言，只看答案会漏掉一个关键问题：模型是怎么得到这个答案的？

同样答对一道题，一个模型可能沿主线步步推进，另一个则反复重启同一思路、做大量无效检查、甚至用错误步骤撑起正确结论。

这些低质量推理不仅推高生成成本，也让模型在题目条件变化时更容易出错。

在强化学习训练里，这一问题更明显。如果奖励只看最终答案，那么所有答对的推理链都会得到同样反馈。但答案之外，还需要进一步区分：哪条推理链更清楚、更紧凑、更值得模型学习。这正是TRM关注的问题。

TRM整体框架如下：(a) 提出ME² principle, (b) 用DAG抽象复杂推理结构, (c) 训练Thinking Reward Model，并将其用于Test-Time Scaling和RL。

TRM思考奖励模型上线，大模型推理质量终于能量化了 | ICML‘26 Oral图2

ME² principle：什么样的思考过程才算好？

要评估推理质量，首先要说清楚“好”到底指什么。

论文沿两条正交轴拆解推理质量：粒度上分macro（整体结构）和micro（单步内容）；目标上分efficiency（高效）和effectiveness（有效）。两两组合得到四个维度：

-Macro-Efficiency：整体结构是否高效。好的推理链会沿着必要分支推进，避免在同一条思路上反复重启，也不会做过多无效检查。

-Macro-Effectiveness：整体结构是否有效。推理主线应始终围绕问题目标展开，分支之间关系清楚，关键论证能够前后接上。

-Micro-Efficiency：单步表达是否简洁。每一步最好都有明确作用，比如计算、验证、排除或归纳，少写不影响结论的重复内容。

-Micro-Effectiveness：单步内容是否正确。局部计算、符号使用和前后结论需要自洽，不能用错误步骤支撑正确答案。

这四个维度把“哪条推理更好”分解成可标注、可比较、可训练的信号，构成后续整套评估和优化流程的基石。

TRM思考奖励模型上线，大模型推理质量终于能量化了 | ICML‘26 Oral图3

△ME² principle

DAG-based Evaluation：让自由形式的推理变得可结构化

模型推理链通常是一长串自然语言文本，表面上按顺序展开，但真实推理不一定直线前进。它可能先推进一条主线，中途展开几个分支，排除一些可能性，再把有效分支合并回来。

更麻烦的是，长文本里有大量局部细节，容易淹没真正重要的结构信号。如果不把推理结构显式拆出来，评估模型就很难稳定区分它们。

因此，论文把自由形式的推理链抽象为有向无环图（DAG）。具体来说，先把原始文本切成一系列原子步骤，把每个步骤作为一个节点，再按照语义依赖关系连边。这样一来，推理链中的progression（线性推进）、branching（分支探索）和merging（分支合并）就能清楚呈现出来。

为此，论文把任意推理链抽象为有向无环图（DAG），并将这一过程拆成三步：

1.Step Partitioning：先按段落做粗切分，再统计大量轨迹中高频起始词作为更稳定的分隔符，得到一致、有语义意义的步骤边界。
2.Reasoning Structuring：按时间顺序遍历每个推理步骤，用大模型分配其语义父节点，逐步构建边；再把完全线性的相邻节点合并为超节点，得到紧凑的DAG，清晰呈现progression（线性推进）、branching（分支探索）和merging（分支合并）这样的复杂结构。
3.Pairwise Evaluation：根据ME² principle构造语义抽象，再让评估模型基于这些抽象给出两条推理链的相对偏好。Macro和Micro两种粒度分别对应不同的抽象方式，覆盖ME² principle四个维度。

这样，评估模型就不必只盯着一整段长文本，而是可以沿着推理结构看：主线是否清楚，分支是否必要，局部步骤是否简洁、正确。这样得到的判断，也比直接看原文更稳定。