不改模型也能提升推理性能？ICLR投稿提出测试时扩展新范式OTV

ICLR 2026 投稿
量子位 | 公众号 QbitAI

近年来，大语言模型在各类任务上表现出色，但幻觉、逻辑错误、推理漏洞等问题仍屡见不鲜。这促使研究者持续探索提升模型输出可靠性的新路径。现有主流范式各有优势，也存在局限。

有没有可能在不改动原始模型结构和参数的前提下，实现对推理过程的“实时自主监控”？

ICLR 2026一篇投稿论文提出了一个全新思路：单token验证（One-Token Verification，OTV），这是一种测试时扩展的新机制，让模型能“边推理，边判断自己是否推理正确”。

目前主流范式优缺点如下：

LoRA微调：
作为当前主流的参数高效微调手段，虽然无需全参数训练、便于部署，但往往依赖详细的监督数据，且仍会引发“遗忘效应”。
RLVR（可验证奖励强化学习）：
仅需结果的程序可验证性即可驱动训练，节省标注成本，但整体流程复杂、计算代价高昂，难以普及。
后置验证器：
通过对模型已生成结果进行质量筛选，可增强输出可信度，但往往滞后发生，难以及时纠偏模型的思路，且无法窥探模型的内部推理过程。

背景介绍：多线程推理的并行思考

在面对复杂推理任务时，单一路径生成往往难以稳定产出正确答案。为此，研究者们近年来提出了并行思考（Parallel Thinking）的推理框架：让语言模型同时生成多条推理路径，再通过一定机制进行甄别筛选。

OTV正是构建在这一并行思考思路之上，但它并未提出多路径生成本身，而是关注如何以更低成本、更高效率从中筛选出正确推理，从而引入“单token验证”这一新范式。

△类似于人类可以对解题过程进行判断，OTV的动机是利用模型的内在推理动态进行分析。

OTV机制核心：内部验证器分析推理过程

为了判断一条推理路径是否靠谱，OTV借助一个由LoRA实现的轻量角色向量作为内部验证器，与原模型并行运行。它并不干扰模型生成内容，而是在“旁观”中做出判断。

这个内部验证器的“洞察力”从何而来？答案藏在Transformer架构的核心组件——键值缓存（KV Cache）。在自回归生成过程中，模型的每一层、每一个token都会生成对应的 Key 和 Value 向量，这些向量被逐步累积并保存在 KV 缓存中。它不仅是模型运行的“中间状态”，更是完整的推理轨迹记录：跨越所有层、整段历史输入，是捕捉模型内部动态最丰富的信息源。

OTV正是利用了键值缓存。在验证阶段，它向输入中插入一个特殊token——被作者称为“ToT”（Token of Truth）。这个token的作用不同于普通生成token：

它的Query向量会与此前整个序列的KV缓存进行一次特殊的注意力交互；
这意味着它可以“回顾”整条推理路径中每一步的注意力分布与上下文关联；
最终它输出一个隐藏状态，传递给一个轻量级的回归头；
回归头再给出一个0~1区间内的评分，作为当前推理路径的正确性估计。

整个过程极其高效，因为验证一次仅相当于模型多生成一个token的计算量。

OTV如何训练：轻量结构、简明目标、并行高效

OTV的内部验证器虽然小巧，但其训练逻辑经过了精心设计：

结构上，OTV在插入LoRA角色的基础上，增加一个轻量回归头，直接输出0~1之间的连续值，表示当前推理路径的正确性评分。

训练目标上，OTV以最终答案是否正确为信号，为每个生成token分配启发式伪标签。例如，正确路径的得分从 0.5 线性递增至 1，错误路径则递减至 0，并用均方误差损失作为优化目标。

并行效率上，OTV支持在训练阶段同时计算所有位置的评分预测（原文公式5-7），整体训练流程高度并行，计算成本与传统LoRA微调相当。

△OTV的算法框架和四个部分示意图。

OTV的实验验证

研究团队在多个规模的开源模型（如Qwen3-4B、Qwen3-8B、DAPO-Qwen-32B）上对OTV进行了系统评估，使用开源 DAPO 数据集对验证器进行校准，测试任务则基于高难度数学推理数据集AIME。结果显示，OTV不仅在准确率上全面领先，同时更倾向选择更短、更准确的推理路径。

对比的基线方法涵盖了当前主流的几类思路，包括：

基于模型token概率排序的无训练方案（DeepConf）；
由模型自身生成验证文本的生成式验证器（GenRM）；
以及一系列外部奖励模型，如 AceMath-RM、VersaPRM、Math-Shepherd 等。

实验表明，OTV作为“模型原生”的验证器，能够直接读取模型内部推理状态与输出质量之间的深层关联，其判断能力显著优于依赖输出文本的通用方法。

在标准的“加权多数投票”设置中，所有候选路径需完整生成并逐一打分，最终选择得分最高者。OTV在不同模型规模下稳定地超越所有基线。同时值得一提的是：即便在已通过 DAPO 数据集强化学习的 DAPO-Qwen-32B 上，OTV仍带来了可观的额外提升。

△不同方法在多个原模型下的加权多数投票准确率对比。

OTV同时赋予了模型动态控制计算开销的能力。依赖OTV实时输出的置信度分数，模型可以在推理过程中实时淘汰低质量路径，节省不必要的计算。研究者提出多种高效 Best-of-N 变体，例如“HALF 300”策略，即每生成300个 token，就淘汰当前置信度最低的50%路径，最终保留得分最高者。结果显示，与标准的 Best-of-128 策略相比，OTV高效策略在计算量减少近 90%的前提下。仍能保持最优或接近最优的准确率。

△不同方法在高效推理设置下的准确率与输出长度对比。

更直观的对比来自可视化分析。研究者展示了多个问题下，OTV与其他方法对推理路径的置信度得分评分轨迹。图中红色为最终正确路径，绿色为错误路径。

△不同方法在三个问题上多路径的得分变化轨迹。

可以清晰地看到：

对于传统方法（如DeepConf或外部过程奖励模型），红绿轨迹往往缠绕混杂，缺乏单调性，无法稳定区分优劣；
而在OTV的评分下，红色轨迹稳定上升，呈现出推理逐步走向正确的趋势，而绿色轨迹则通常被压制在低置信区间内。

这一对比直观地说明：OTV捕捉到的信号更稳定、更真实，也更具有区分度，能够反映模型内部推理过程的质量变化，从而为最终决策提供可靠依据。

此外，研究者还进行了多项消融实验，进一步验证了OTV各组件的作用与稳定性，包括仅使用回归头、调整LoRA秩、采用不同启发式监督策略等。即便在更贴近实际微调场景的 Base 模型（未经过后训练）上，OTV依然展现出稳定的性能提升，验证了其方法的通用性与鲁棒性。在附录中，作者还提供了更细粒度的推理可视化分析与文本扰动敏感性评估，为OTV在实际应用中的解释性与稳健性提供了进一步支持。

△在仅使用回归头和不同LoRA秩设置下，OTV的训练损失与性能对比分析

总结与展望

这篇论文提出的单Token验证（OTV）框架，通巧妙地重用LoRA和探测KV缓存，为大语言模型的推理质量评估提供了一个极致轻量、实时、无损且模型原生的解决方案。OTV建立在对Transformer架构深刻理解之上的“最小化、靶向性干预”的设计哲学。它向我们揭示了，通往更强大、更可靠AI的道路有时更需要的是深入模型内部，唤醒其“自知之明”的智慧。

展望未来，OTV为后续研究开辟了广阔的空间。一方面，可以探索验证器与原模型更深层次的融合机制，实现推理与评估的协同演化；另一方面，当前基于二元置信度（正确 / 错误）的设计也可扩展为引入“不确定”状态的三元系统，使模型具备选择性预测能力，在面对模糊或低信号任务时学会“谨慎作答”和主动学习。同时，OTV所提供的置信度信号也具备安全控制的潜力：当模型在生成过程中暴露出异常推理模式或高风险倾向时，验证器可实时发出预警，主动终止不安全路径的生成。

此外，未来还可以将OTV思路推广到不同架构的模型中，并结合对KV缓存结构的优化，进一步挖掘其在推理效率与表示利用方面的潜力。研究团队认为，赋予模型“自知之明”的这类探索，将成为推动下一代可信、安全、可控 AI 系统的重要基石。

论文链接：https://openreview.net/pdf?id=QewOtpenMy