OpenAI最新研究火了,但我们发现一个致命假设:「我不知道」五个字,为什么大模型就是学不会?

智能情报所 2025-09-11 17:04

大语言模型为何如此难以承认“我不知道”

作者:尼克·波特卡利茨基 博士

日期:2025 年 9 月 11 日


几位来自 OpenAI 和佐治亚理工学院的研究人员,最近发表了一篇名为《为什么语言模型会产生幻觉》的论文,在人工智能领域引发了热烈讨论。

这项研究似乎为大语言模型为何会自信地捏造事实,提供了严谨的解释,也为解决问题规划了清晰的路线。

作者们大胆宣称:“语言模型之所以产生幻觉,是因为训练和评估机制奖励猜测,而非承认不确定性。”

他们进一步断言,这种机制的改变“可能会引导整个领域,走向更值得信赖的人工智能系统。”

他们的核心论点有两大支柱。首先,他们从数学上证明,幻觉在预训练阶段是统计上无法避免的。

其次,他们认为,现有的评估方法惩罚不确定性,从而加剧了问题。在目前主流的 0-1 评分基准下,一个倾向于猜测的模型反而会胜出。

数学基础:无法回避的统计压力

研究者对预训练的数学分析确实深刻。他们指出,生成一段有效文本,远比判断一段文本是否有效要困难得多。

这种分析揭示了一个关键点:在监督学习中导致错误的统计压力,同样也是驱动语言模型产生幻觉的根本原因。

他们将错误归结为三个来源:无规律可循的任意事实(比如某个不知名人物的生日)、模型架构无法胜任复杂任务,以及计算能力的限制。

对于那些在训练数据中极少出现的事实,任何算法都必然会犯错。数学关系显示,这类稀有事实越多,模型的错误率就越高。

这个数学框架令人信服地证明了,幻觉并非一个能被修复的程序错误,而是模型在学习有限数据时必然产生的特性

逻辑的断裂:一个隐藏的假设

然而,研究者提出的解决方案,依赖于一个经不起推敲的关键假设。

他们建议,调整评估指标,引入“明确的置信度目标”,以此教会模型何时该说“我不知道*”,而不是凭空捏造。

这个想法听起来很简单:只要告诉模型“仅在置信度高于某个阈值时才回答”,它们就会自动校准反应。

但这个方案的前提是,模型本身拥有准确评估内在不确定性的能力,只是这种能力被当前的评估方式压制了。

令人意外的是,支持这一前提的证据非常薄弱,与其严谨的数学分析形成了鲜明对比。

更重要的是,这个方案忽略了一个基本事实:在模型的训练数据里,“我不知道”几乎从未作为事实性问题的标准答案出现过。

训练数据里“我不知道”的荒漠

想一想,构成大模型训练基础的海量文本,里面都写了些什么?维基百科自信地陈述事实,新闻报道权威地发布信息,学术论文则断言各种发现。

书本和网站上绝大多数都是确定的事实陈述,而不是对不确定性的表达。

当模型在训练中遇到句式“某人的生日是”,后面几乎总跟着一个确切的日期,而不是“未知”或“我不确定”。

训练模型所用的交叉熵损失函数,奖励的是模型准确预测文本的下一个词。在训练数据中,这个词通常是一个自信的断言,而不是认知上的谦逊。

这就造成了根本的错位:训练过程教会模型自信地补完句子,因为人类写的文本就是这样。作者们通常不会发表文章说“我不知道爱因斯坦的生日”,他们要么先查清楚,要么干脆不写。

资讯配图

两种“正确”与一个令人困惑的方案

论文在不同地方使用了准确性一词,但含义却不同,也未加以区分。

在描述当前评估方法时,它指的是程序上的准确,即答案是否符合预设的格式,这种评估不鼓励表达不确定性。

但在提出解决方案时,论文里写“正确的答案得 1 分”,这里的正确又似乎指向了某种外部的现实真理,却没有说明这个真理的标准是什么。

这反映了统计上的准确(匹配训练数据模式)与认知上的准确(符合客观现实)之间的内在矛盾。

作者的数学分析证明了,模型会生成统计上看似合理却可能错误的陈述。但他们提出的解决方案,却假设模型能因此更好地追踪事实,这是一个逻辑上的跳跃。

比如问模型“某某的生日是哪天?”,它可能回答“10 月 15 日”。这个回答在统计模式上是准确的,但在事实上却可能是错的。

模型学到的是如何像人类一样自信地回答生日问题,而不是它是否真的知道答案。

评估指标只是海市蜃楼

作者们有力地证明了,现有基准测试通过非对即错的评分方式,确实抑制了模型表达不确定性。

但改变评估指标,可能只是治标不治本。如果模型从一开始就缺乏评估自身不确定性的能力,那么强迫它选择性地自信,可能只是换了一种方式产生幻觉。

研究者也隐晦地承认了这一点,他们提到,对于计算错误或其它内在幻觉,他们的方法可能无能为力。这暗示了他们的方案无法触及更深层的问题。

那条未被选择的道路

一个更诚实的结论或许是:数学分析已经揭示了机器学习的根本局限,这不是单靠调整评估指标就能解决的。

作者们触及了一个核心矛盾:机器学习的优化目标是统计相关性,而不是与现实的对应性,但我们却期望它能对世界做出可靠的事实陈述。

既然幻觉在预训练阶段是数学上不可避免的,这或许意味着我们需要更彻底的解决方案,而不是在评估上修修补补。

例如,设计能明确模拟不确定性的新模型架构,或是在训练中就融入认知谦逊的机制,甚至是将模式匹配与结构化知识库相结合的混合系统。

错误乐观的危险

这篇论文在问题分析上的严谨,和在解决方案上的草率之间形成的落差,反映了人工智能研究领域的一个普遍倾向:

总喜欢将根本性的限制,包装成一个等待巧妙解决方案的工程挑战。

当 OpenAI 的研究人员暗示,改变评估方法就能“引导领域走向更值得信赖的人工智能”时,他们可能在制造一种虚假的信心。

学术界和公众,都应该得到对人工智能局限性更诚实的评估。幻觉或许可以被控制,但无法被根除。

承认这一点,并不会贬低渐进式改进的价值,而是为这些改进能达成的效果,设定一个合理的预期。

通往更可靠人工智能的道路,必须直面统计学习与探寻真理之间的根本矛盾——这篇论文照亮了这个问题,却没有解决它。

在此之前,无论我们如何评估,幻觉都将是大语言模型一个挥之不去的特性。


一键三连点赞」「转发」「小心心

欢迎在评论区留下你的想法!


声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI
more
AI会不会颠覆生产关系?从一个小案例说起...
落地为王,谁在用AI撬动百亿产业?
潮讯:华为海思重大人事调整;iPhone17天猫预约量为前代三倍;小红书回应被约谈;支付宝宣布推出国内首个“AI付”
2025年中国AI软件(人工智能软件)行业现状及发展趋势分析,开源与协作趋势明显「图」
对AI的恐惧被夸大了!“强化学习之父”萨顿外滩演讲:四条原则预言AI未来
OpenAI,最新技术分享
今日最黑:iPhone Air还是太细节了
刚刚,世界首富易主!81岁甲骨文创始人凭AI算力单日暴涨1010亿美元,反超马斯克
中企200亿收购外资AI巨头,86%收入源自单一客户?
【苹果】iPhone Air eSIM仅联通支持?移动/电信回应
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号