4B模型幻觉抑制能力超越GPT-5，CMU等提出行为校准强化学习新方法

作者吴嘉赟，卡耐基梅隆大学（CMU）机器学习系博士生，研究大语言模型的评测与后训练，包括模型推理、模型幻觉、主动评测等。

大语言模型（LLM）的幻觉问题一直是阻碍其在关键领域部署的核心难题。近日，研究人员提出了一种名为行为校准强化学习（Behaviorally Calibrated Reinforcement Learning）的新方法，通过重新设计奖励函数，让模型学会「知之为知之，不知为不知」。

论文链接：https://arxiv.org/abs/2512.19920

一个仅 40 亿参数的模型在接受该方法训练后，其幻觉抑制能力竟然超越了 GPT-5 等前沿大模型。

图1：模型在回答数学问题时输出的置信度标注示例。每个声明都附带置信度分数和理由说明。

核心问题：为什么 LLM 会产生幻觉？

研究团队指出，当前主流的大模型后训练范式 —— 基于可验证奖励的强化学习（RLVR）—— 存在一个根本性的奖励错位问题。在标准 RLVR 中，奖励函数通常是二元的：回答正确得 + 1 分，回答错误得 - 1 分。在这种机制下，只要正确概率大于零，一个追求效用最大化的智能体会被激励生成可能错误的答案。这就造成了对「拒绝回答」行为的惩罚，迫使模型抑制不确定性的表达，将猜测伪装成事实。模型被训练成了「优秀的应试者」—— 为了最大化预期分数而猜测，而不是成为「诚实的沟通者」—— 在置信不足时选择放弃。

解决方案：行为校准强化学习

针对上述问题，研究团队提出了行为校准的解决方案。其核心思想是：一个值得信赖的模型应该根据用户指定的风险阈值 4B模型幻觉抑制能力超越GPT-5，CMU等提出行为校准强化学习新方法图4 动态调整其拒绝行为：

当时，模型处于「应试者模式」，尽可能回答问题；
当时，模型处于「完全诚实模式」，只在绝对确定时才回答；
一般情况下，0当且仅当模型的置信度时才输出实质性答案，否则输出

为了实现这一目标，研究团队设计了两种策略：

策略一：言语化置信度（Verbalized Confidence）

该策略训练模型在输出答案的同时，显式输出一个标量置信度分数 4B模型幻觉抑制能力超越GPT-5，CMU等提出行为校准强化学习新方法图9 ，当模型置信低于用户风险阈值时拒绝回答，并分配奖励：

回答正确得 1 分；
回答错误得 - 1 分；
拒绝回答得分。

研究团队将不同用户风险偏好 4B模型幻觉抑制能力超越GPT-5，CMU等提出行为校准强化学习新方法图13 下的奖励函数进行积分，将训练目标从带有显式风险阈值的条件优化，转化为对 Verbalized Confidence 的严格适当评分规则（proper scoring rule) 进行优化。

对于均匀分布的风险偏好 4B模型幻觉抑制能力超越GPT-5，CMU等提出行为校准强化学习新方法图14 ，推导出的奖励函数类似于 Brier 分数：

这个奖励可以分解为正确性奖励 4B模型幻觉抑制能力超越GPT-5，CMU等提出行为校准强化学习新方法图16 和置信度校准的 Brier 分数之差，激励模型在最大化预测准确率的同时，校准其声明的置信度。

对于一般的风险偏好累计分布函数 4B模型幻觉抑制能力超越GPT-5，CMU等提出行为校准强化学习新方法图18 ，奖励函数的通式为：

策略二：Critic 价值函数（Critic Value）

作为显示生成置信度的替代方案，该策略使用 PPO 算法中 Critic 网络的价值函数作为隐式置信度估计器。理论上，Critic 网络通过最小化预测值与策略回报之间的 Brier 分数进行训练，其价值函数会收敛到成功概率。

声明级行为校准：细粒度的「不确定」标注

研究团队进一步将行为校准从响应级别扩展到声明级别，使模型能够精确标注答案中单个不确定的推理步骤，而非简单地拒绝整个回答。这一扩展面临三大挑战：

挑战一：连贯性问题。直接将不确定的声明替换为 < IDK > 可能破坏推理的连贯性 —— 例如在数学问题中，后续步骤往往依赖于前面的结论。研究团队选择让模型输出完整响应，同时用 HTML 标签可视化高亮不确定的声明。

挑战二：中间步骤的歧义性。在思维链（CoT）推理中，中间步骤的正确性和置信度存在天然歧义：一个步骤可能正确识别了前面声明中的错误。为此，研究团队忽略中间推理过程，仅在最终的结构化步骤上进行校准。

挑战三：缺乏细粒度标签。声明级的正确性标注难以获取。研究团队设计了基于弱监督的学习目标：将声明级置信度聚合成响应级置信度，再使用 Brier 分数奖励进行训练。

具体而言，对于包含 4B模型幻觉抑制能力超越GPT-5，CMU等提出行为校准强化学习新方法图20 个声明的响应，研究团队探索了两种聚合方式：

乘积聚合（Product Aggregation）：，假设各声明的独立性，最终正确当且仅当所有声明都正确
最小值聚合（Minimum Aggregation）：，由最不确信的步骤决定整体置信度，强制模型为最易出错的步骤分配低置信度

实验发现，最小值聚合在声明级评估中表现更优，因为它能更有效地激励模型识别推理链中的薄弱环节。而乘积聚合虽然更适合响应级校准，但可能导致单个声明的置信度过于乐观。

实验结果

研究团队在多个基准测试上评估了该方法，包括字节跳动 Seed 团队发布的极具挑战性的数学推理基准 BeyondAIME，以及 AIME-2024/2025 和 SimpleQA（跨领域事实问答基准）。

核心评估指标

信噪比增益 (SNR Gain)：给定风险阈值 4B模型幻觉抑制能力超越GPT-5，CMU等提出行为校准强化学习新方法图23 ，信噪比定义为模型回答中正确响应数量与幻觉响应数量的比值，即。SNR 越高，说明模型在回答问题时的正确回答远多于错误回答。SNR 增益则是风险阈值在 4B模型幻觉抑制能力超越GPT-5，CMU等提出行为校准强化学习新方法图25 的整个区间内的平均信噪比相对总是回答时的信噪比增益。

Confidence AUC：使用模型的置信度分数对正确和错误回答进行排序，计算 ROC 曲线下面积。AUC 越接近 1，说明模型越能准确地将高置信度分配给正确回答，将低置信度分配给错误回答。这是一个纯衡量模型「自知之明」的指标，不受模型本身能力强弱的影响。

响应级评估：超越 GPT-5

在 BeyondAIME 上的响应级评估结果显示（表 1），研究提出的方法显著优于 Qwen3-max，Kimi-K2，Gemini-2.5-Pro 和 GPT-5 等模型。其中，采用言语化置信度（Verbalized Confidence）、置信度乘积聚合（Qwen3-4B-Instruct-confidence-prod）的 40 亿参数模型取得了 0.806 的 SNR 增益，大幅超越 GPT-5 的 0.207。采用 Critic 价值函数（Qwen3-4B-Instruct-ppo-value）也取得了相当好的效果。

表1：BeyondAIME 响应级评估结果。SNR Gain 和 Conf AUC 是衡量幻觉抑制效果的关键指标，数值越高表示模型越能有效抑制幻觉。

声明级评估：超越 Gemini-2.5-Pro

研究团队还将行为校准从响应级别扩展到声明级别，让模型能够精确标注单个不确定的推理步骤。在 BeyondAIME 的声明级评估中（表 2），置信度最小聚合方法取得了 0.301 的 SNR 增益，显著优于 Gemini-2.5-Pro 的 0.019。

表2：BeyondAIME 声明级评估结果。最小值聚合方法在 SNR Gain 和 Conf AUC 两个核心指标上均大幅领先前沿模型。

置信度校准图：多数前沿模型缺少「自知之明」

置信度校准图（Reliability Diagram）是评估模型「自知之明」的重要可视化工具。图中的虚线 4B模型幻觉抑制能力超越GPT-5，CMU等提出行为校准强化学习新方法图28 代表完美校准 —— 模型声明的置信度等于其实际准确率。从图 2 可以清晰地看到，前沿模型（包括 Gemini-2.5-Pro、Qwen3-Max 等）的校准曲线几乎是水平线，这意味着无论模型声称自己有多「自信」，其实际准确率都维持在相近水平。这说明这些模型缺乏区分正确与错误回答的能力。只有 GPT-5 和 o4-mini 输出的置信具有实际意义。相比之下，经过行为校准训练的模型（图 3）展现出理想的校准特性。单调递增的校准曲线证明模型学会了诚实地表达自己的不确定性。

图2：前沿模型在BeyondAIME上的响应级置信度校准图。可以观察到，很多模型的准确率是一条水平线，与其声明的置信度几乎没有相关性。

图3：本研究模型在BeyondAIME上的置信度校准图。经过行为校准训练后，模型的准确率与其声明的置信度呈现强烈的正相关关系。其中Base和Base-ppo是基准。

行为校准的四个目标

图4：在不同风险阈值下的准确率、拒绝率和幻觉率变化曲线。绿色区域代表准确率，黄色区域代表拒绝率，红色区域代表幻觉率。随着风险阈值t的增加，模型逐渐从「应试者模式」过渡到「完全诚实模式」。

研究团队设计的系统满足行为校准的四个目标：

目标 1：自适应风险。模型能根据用户指定的风险阈值 4B模型幻觉抑制能力超越GPT-5，CMU等提出行为校准强化学习新方法图32 自动调整拒绝策略。从图 4 可以观察到，随着风险阈值的增加，幻觉率（红色区域）迅速下降。与前沿模型和基础 PPO 模型的「凸形」拒绝曲线不同，本研究模型的「凹形」拒绝曲线表明模型能更快地适应风险变化，在较低的风险阈值下就能有效降低幻觉。

目标 2：准确率保持。在 4B模型幻觉抑制能力超越GPT-5，CMU等提出行为校准强化学习新方法图34 （不拒绝）模式下，校准模型的准确率与标准 RL 微调基线相当甚至更好。

目标 3：幻觉减少。随着风险阈值 4B模型幻觉抑制能力超越GPT-5，CMU等提出行为校准强化学习新方法图35 增加，幻觉率单调递减。当时（完全诚实模式），幻觉率几乎降至零。同时信噪比 SNR（绿色区域与红色区域的比值）大幅提升。

目标 4：定量校准。模型满足两个定量约束：

真阳性率（TP）：在模型选择回答的问题中，正确回答的比例不低于风险阈值
假阴性率（FN）：在模型选择拒绝的问题中，原本能正确回答的比例应不高于

图 5 展示了各模型的 TP 和 FN 曲线。TP 曲线大部分位于对角线 4B模型幻觉抑制能力超越GPT-5，CMU等提出行为校准强化学习新方法图39 上方，FN 曲线大部分位于对角线下方，满足行为校准的定量约束。

图5：行为校准的True Positive（实线）和False Negative（虚线)。TP曲线应位于对角线上方，FN曲线应位于对角线下方。Base和Base-ppo是基线

跨领域泛化：元技能的可迁移性

为了验证该方法训练出的元认知能力是否具有可迁移性，研究团队将在数学数据上训练的模型直接在 SimpleQA（具有挑战性的长尾事实知识基准）上进行零样本评估。

结果显示，方法的 SNR 显著优于基础指令模型，超越了大多数评估的前沿模型，与包括 Claude-Sonnet-4.5 和 GPT-5 在内的最强前沿模型相当。由于零样本评估的设定，在模型缺乏基础知识的全新领域上，行为校准被有效迁移，这说明行为校准是一种与预测准确率解耦的技能。

研究启示：

幻觉缓解与准确率是两个独立的能力

该研究还带来了一些理论洞察：

1. 幻觉缓解与事实准确率是两种不同的能力。研究团队观察到，对于某些前沿模型而言，准确率与幻觉率或置信度校准之间并没有正相关关系。GPT 系列模型的优势更多体现在控制幻觉的能力上，而不仅是准确率的优势。

2. 小模型也能实现与大模型相当的置信度校准。实现有效「校准」所需的计算资源远低于追求绝对准确率所需的资源。反过来说，某些大模型的言语化置信度并不能准确反映其实际表现。

3. 行为校准是一种可学习的属性，可以通过训练得到改善。这与此前认为幻觉是 LLM 不可避免的内置特性的观点形成了对比。