4B模型幻觉抑制能力超越GPT-5,CMU等提出行为校准强化学习新方法

机器之心 2026-03-12 19:00

 

 

作者吴嘉赟,卡耐基梅隆大学(CMU)机器学习系博士生,研究大语言模型的评测与后训练,包括模型推理、模型幻觉、主动评测等。

 

大语言模型(LLM)的幻觉问题一直是阻碍其在关键领域部署的核心难题。近日,研究人员提出了一种名为行为校准强化学(Behaviorally Calibrated Reinforcement Learning)的新方法,通过重新设计奖励函数,让模型学会「知之为知之,不知为不知」。

 

4B模型幻觉抑制能力超越GPT-5,CMU等提出行为校准强化学习新方法图2

 

论文链接:https://arxiv.org/abs/2512.19920

 

一个仅 40 亿参数的模型在接受该方法训练后,其幻觉抑制能力竟然超越了 GPT-5 等前沿大模型。

 

4B模型幻觉抑制能力超越GPT-5,CMU等提出行为校准强化学习新方法图3

图1:模型在回答数学问题时输出的置信度标注示例。每个声明都附带置信度分数和理由说明。

 

核心问题:为什么 LLM 会产生幻觉?

 

研究团队指出,当前主流的大模型后训练范式 —— 基于可验证奖励的强化学习(RLVR)—— 存在一个根本性的奖励错位问题。在标准 RLVR 中,奖励函数通常是二元的:回答正确得 + 1 分,回答错误得 - 1 分。在这种机制下,只要正确概率大于零,一个追求效用最大化的智能体会被激励生成可能错误的答案。这就造成了对「拒绝回答」行为的惩罚,迫使模型抑制不确定性的表达,将猜测伪装成事实。模型被训练成了「优秀的应试者」—— 为了最大化预期分数而猜测,而不是成为「诚实的沟通者」—— 在置信不足时选择放弃。

 

解决方案:行为校准强化学习

 

针对上述问题,研究团队提出了行为校准的解决方案。其核心思想是:一个值得信赖的模型应该根据用户指定的风险阈值4B模型幻觉抑制能力超越GPT-5,CMU等提出行为校准强化学习新方法图4动态调整其拒绝行为:

为了实现这一目标,研究团队设计了两种策略:

 

策略一:言语化置信度(Verbalized Confidence)

 

该策略训练模型在输出答案的同时,显式输出一个标量置信度分数4B模型幻觉抑制能力超越GPT-5,CMU等提出行为校准强化学习新方法图9,当模型置信4B模型幻觉抑制能力超越GPT-5,CMU等提出行为校准强化学习新方法图10低于用户风险阈值4B模型幻觉抑制能力超越GPT-5,CMU等提出行为校准强化学习新方法图11时拒绝回答,并分配奖励:

 

研究团队将不同用户风险偏好 4B模型幻觉抑制能力超越GPT-5,CMU等提出行为校准强化学习新方法图13 下的奖励函数进行积分,将训练目标从带有显式风险阈值的条件优化,转化为对 Verbalized Confidence 的严格适当评分规则(proper scoring rule) 进行优化。

 

对于均匀分布的风险偏好4B模型幻觉抑制能力超越GPT-5,CMU等提出行为校准强化学习新方法图14,推导出的奖励函数类似于 Brier 分数

 

4B模型幻觉抑制能力超越GPT-5,CMU等提出行为校准强化学习新方法图15

 

这个奖励可以分解为正确性奖励 4B模型幻觉抑制能力超越GPT-5,CMU等提出行为校准强化学习新方法图16 和置信度校准的 Brier 分数 4B模型幻觉抑制能力超越GPT-5,CMU等提出行为校准强化学习新方法图17 之差,激励模型在最大化预测准确率的同时,校准其声明的置信度。

 

对于一般的风险偏好累计分布函数 4B模型幻觉抑制能力超越GPT-5,CMU等提出行为校准强化学习新方法图18,奖励函数的通式为:

 

4B模型幻觉抑制能力超越GPT-5,CMU等提出行为校准强化学习新方法图19

 

策略二:Critic 价值函数(Critic Value)

 

作为显示生成置信度的替代方案,该策略使用 PPO 算法中 Critic 网络的价值函数作为隐式置信度估计器。理论上,Critic 网络通过最小化预测值与策略回报之间的 Brier 分数进行训练,其价值函数会收敛到成功概率。

 

声明级行为校准:细粒度的「不确定」标注

 

研究团队进一步将行为校准从响应级别扩展到声明级别,使模型能够精确标注答案中单个不确定的推理步骤,而非简单地拒绝整个回答。这一扩展面临三大挑战:

 

挑战一:连贯性问题。直接将不确定的声明替换为 < IDK > 可能破坏推理的连贯性 —— 例如在数学问题中,后续步骤往往依赖于前面的结论。研究团队选择让模型输出完整响应,同时用 HTML 标签可视化高亮不确定的声明

 

挑战二:中间步骤的歧义性。在思维链(CoT)推理中,中间步骤的正确性和置信度存在天然歧义:一个步骤可能正确识别了前面声明中的错误。为此,研究团队忽略中间推理过程,仅在最终的结构化步骤上进行校准

 

挑战三:缺乏细粒度标签。声明级的正确性标注难以获取。研究团队设计了基于弱监督的学习目标:将声明级置信度聚合成响应级置信度,再使用 Brier 分数奖励进行训练。

 

具体而言,对于包含4B模型幻觉抑制能力超越GPT-5,CMU等提出行为校准强化学习新方法图20声明的响应,研究团队探索了两种聚合方式:

 

 

实验发现,最小值聚合在声明级评估中表现更优,因为它能更有效地激励模型识别推理链中的薄弱环节。而乘积聚合虽然更适合响应级校准,但可能导致单个声明的置信度过于乐观。

 

实验结果

 

研究团队在多个基准测试上评估了该方法,包括字节跳动 Seed 团队发布的极具挑战性的数学推理基准 BeyondAIME,以及 AIME-2024/2025 和 SimpleQA(跨领域事实问答基准)。

 

核心评估指标

 

信噪比增益 (SNR Gain):给定风险阈值4B模型幻觉抑制能力超越GPT-5,CMU等提出行为校准强化学习新方法图23,信噪比定义为模型回答中正确响应数量与幻觉响应数量的比值,即 4B模型幻觉抑制能力超越GPT-5,CMU等提出行为校准强化学习新方法图24。SNR 越高,说明模型在回答问题时的正确回答远多于错误回答。SNR 增益则是风险阈值在 4B模型幻觉抑制能力超越GPT-5,CMU等提出行为校准强化学习新方法图25 的整个区间内的平均信噪比相对总是回答时的信噪比增益。

 

Confidence AUC:使用模型的置信度分数对正确和错误回答进行排序,计算 ROC 曲线下面积。AUC 越接近 1,说明模型越能准确地将高置信度分配给正确回答,将低置信度分配给错误回答。这是一个纯衡量模型「自知之明」的指标,不受模型本身能力强弱的影响。

 

响应级评估:超越 GPT-5

 

在 BeyondAIME 上的响应级评估结果显示(表 1),研究提出的方法显著优于 Qwen3-max,Kimi-K2,Gemini-2.5-Pro 和 GPT-5 等模型。其中,采用言语化置信度(Verbalized Confidence)、置信度乘积聚合(Qwen3-4B-Instruct-confidence-prod)的 40 亿参数模型取得了 0.806 的 SNR 增益大幅超越 GPT-5 的 0.207。采用 Critic 价值函数(Qwen3-4B-Instruct-ppo-value)也取得了相当好的效果。

 

4B模型幻觉抑制能力超越GPT-5,CMU等提出行为校准强化学习新方法图26

表1:BeyondAIME 响应级评估结果。SNR Gain 和 Conf AUC 是衡量幻觉抑制效果的关键指标,数值越高表示模型越能有效抑制幻觉。

 

 

声明级评估:超越 Gemini-2.5-Pro

 

研究团队还将行为校准从响应级别扩展到声明级别,让模型能够精确标注单个不确定的推理步骤。在 BeyondAIME 的声明级评估中(表 2),置信度最小聚合方法取得了 0.301 的 SNR 增益,显著优于 Gemini-2.5-Pro 的 0.019

 

4B模型幻觉抑制能力超越GPT-5,CMU等提出行为校准强化学习新方法图27

表2:BeyondAIME 声明级评估结果。最小值聚合方法在 SNR Gain 和 Conf AUC 两个核心指标上均大幅领先前沿模型。

 

置信度校准图:多数前沿模型缺少「自知之明」

 

置信度校准图(Reliability Diagram)是评估模型「自知之明」的重要可视化工具。图中的虚线4B模型幻觉抑制能力超越GPT-5,CMU等提出行为校准强化学习新方法图28代表完美校准 —— 模型声明的置信度等于其实际准确率。从图 2 可以清晰地看到,前沿模型(包括 Gemini-2.5-Pro、Qwen3-Max 等)的校准曲线几乎是水平线,这意味着无论模型声称自己有多「自信」,其实际准确率都维持在相近水平。这说明这些模型缺乏区分正确与错误回答的能力。只有 GPT-5 和 o4-mini 输出的置信具有实际意义。相比之下,经过行为校准训练的模型(图 3)展现出理想的校准特性单调递增的校准曲线证明模型学会了诚实地表达自己的不确定性。

 

4B模型幻觉抑制能力超越GPT-5,CMU等提出行为校准强化学习新方法图29

图2:前沿模型在BeyondAIME上的响应级置信度校准图。可以观察到,很多模型的准确率是一条水平线,与其声明的置信度几乎没有相关性。

 

4B模型幻觉抑制能力超越GPT-5,CMU等提出行为校准强化学习新方法图30

图3:本研究模型在BeyondAIME上的置信度校准图。经过行为校准训练后,模型的准确率与其声明的置信度呈现强烈的正相关关系。其中Base和Base-ppo是基准。

 

行为校准的四个目标

 

4B模型幻觉抑制能力超越GPT-5,CMU等提出行为校准强化学习新方法图31

图4:在不同风险阈值下的准确率、拒绝率和幻觉率变化曲线。绿色区域代表准确率,黄色区域代表拒绝率,红色区域代表幻觉率。随着风险阈值t的增加,模型逐渐从「应试者模式」过渡到「完全诚实模式」。

 

研究团队设计的系统满足行为校准的四个目标:

 

目标 1:自适应风险。模型能根据用户指定的风险阈值4B模型幻觉抑制能力超越GPT-5,CMU等提出行为校准强化学习新方法图32自动调整拒绝策略。从图 4 可以观察到,随着风险阈值 4B模型幻觉抑制能力超越GPT-5,CMU等提出行为校准强化学习新方法图33 的增加,幻觉率(红色区域)迅速下降。与前沿模型和基础 PPO 模型的「凸形」拒绝曲线不同,本研究模型的「凹形」拒绝曲线表明模型能更快地适应风险变化,在较低的风险阈值下就能有效降低幻觉。

 

目标 2:准确率保持。在4B模型幻觉抑制能力超越GPT-5,CMU等提出行为校准强化学习新方法图34(不拒绝)模式下,校准模型的准确率与标准 RL 微调基线相当甚至更好。

 

目标 3:幻觉减少。随着风险阈值 4B模型幻觉抑制能力超越GPT-5,CMU等提出行为校准强化学习新方法图35 增加,幻觉率单调递减。当 4B模型幻觉抑制能力超越GPT-5,CMU等提出行为校准强化学习新方法图36 时(完全诚实模式),幻觉率几乎降至零。同时信噪比 SNR(绿色区域与红色区域的比值)大幅提升

 

目标 4:定量校准。模型满足两个定量约束:

图 5 展示了各模型的 TP 和 FN 曲线。TP 曲线大部分位于对角线 4B模型幻觉抑制能力超越GPT-5,CMU等提出行为校准强化学习新方法图39上方,FN 曲线大部分位于对角线下方,满足行为校准的定量约束

 

4B模型幻觉抑制能力超越GPT-5,CMU等提出行为校准强化学习新方法图40

图5:行为校准的True Positive(实线)和False Negative(虚线)。TP曲线应位于对角线上方,FN曲线应位于对角线下方。Base和Base-ppo是基线

 

跨领域泛化:元技能的可迁移性

 

为了验证该方法训练出的元认知能力是否具有可迁移性,研究团队将在数学数据上训练的模型直接在 SimpleQA(具有挑战性的长尾事实知识基准)上进行零样本评估。

 

结果显示,方法的 SNR 显著优于基础指令模型,超越了大多数评估的前沿模型,与包括 Claude-Sonnet-4.5 和 GPT-5 在内的最强前沿模型相当。由于零样本评估的设定,在模型缺乏基础知识的全新领域上,行为校准被有效迁移,这说明行为校准是一种与预测准确率解耦的技能

 

研究启示:

幻觉缓解与准确率是两个独立的能力

 

该研究还带来了一些理论洞察:

 

1. 幻觉缓解与事实准确率是两种不同的能力。研究团队观察到,对于某些前沿模型而言,准确率与幻觉率或置信度校准之间并没有正相关关系。GPT 系列模型的优势更多体现在控制幻觉的能力上,而不仅是准确率的优势。

 

2. 小模型也能实现与大模型相当的置信度校准。实现有效「校准」所需的计算资源远低于追求绝对准确率所需的资源。反过来说,某些大模型的言语化置信度并不能准确反映其实际表现。

 

3. 行为校准是一种可学习的属性,可以通过训练得到改善。这与此前认为幻觉是 LLM 不可避免的内置特性的观点形成了对比。

© THE END 

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
more
黄仁勋发表署名文章:AI的“五层蛋糕”
豆包AI手机搅动行业格局,头部厂商或将跟进合作
旧金山初创公司AgentMail获600万美元种子轮融资,打造专为AI智能体设计的邮箱服务
苏姿丰首访韩国锁定HBM产能,AMD加速AI芯片供应链布局
大厂裁员裁到大动脉,让员工学会AI再砍掉,主页一夜变狗狗大全
【半导体设备】AI&存储双驱动:全球ATE设备竞争格局与创新对垒
从「折叠未来」到「AI万象」,36氪AI万象智造社区将首次亮相AWE丨园区动态
当贝推Molili 1.0.7中文版“龙虾”,大幅降低AI智能体使用门槛与成本
摩根士丹利重评中国科技股 阿里凭全栈AI跃居首选
周鸿祎称软件业实为“最大预制菜公司”,预言Anthropic将超越OpenAI
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号