
去年,我写过一个奇怪的现象——大语言模型给人的体验虽不乏坊间传闻,却又普遍存在:它们初见时表现惊艳,之后却随着时间的推移而逐渐变笨。
全文4686字,文末附音频播客。
用户反馈,像 GPT-4 和 Claude 3.5 Sonnet 这样的模型,给出的答案质量越来越差,响应不完整,甚至会直接拒绝工作。
在那篇文章中,我探讨了几种不同的理论,但没能找到一个令人满意的解释。其他人也一样。
从那时起,我开始将这种现象称为“智能漂移”——这个术语抓住了用户的体验,而不管其根本原因是什么。无论是为了节省成本而偷工减料,还是模型本身的局限性,亦或是季节性的懒惰,用户体验到的都是同一件事:人工智能给人的感觉是,其智能程度正在随时间下降。
因为人们仍然在抱怨,而我们仍然没有任何清晰、明确的答案——尽管这种情况正开始改变。
人们仍在抱怨大语言模型变笨
当我回头审视人们是否对最新模型感到满意时,我惊讶地发现抱怨声从未真正停止。如果说有什么变化的话,那就是随着越来越多的人依赖这些工具进行关键性工作,抱怨声反而愈演愈烈了。
仅过去几个月的 Reddit 和 Hacker News 上的帖子:
我现在从 Claude 得到的输出比两年前还差。这并非夸张。
Claude 曾经是个性能猛兽。快进到今天,感觉就像在和一个害怕自己影子的、坏掉了的算法对话。
提问 HN:为什么 ChatGPT 现在变得更差了?
Claude 的代码能力确实变差了——证据在此
最近几周,你是否觉得 Claude 的代码能力不那么有用了?
这种模式与我去年所写的内容如出一辙。用户报告说,几个月前还能可靠完成的任务现在却失败了,响应感觉更加空泛通用,模型似乎在对话中途就忘记了上下文。此外,这些报告来自重度用户——开发者、作家和研究人员——他们每天都使用这些工具,并能注意到细微的性能退化。
那么,自从我上一篇文章以来,情况有什么变化?我们在理解究竟发生了什么方面,是否取得了任何进展?
旧理论现在怎么样了?
在深入探讨新证据之前,让我们先回顾一下旧的理论:
成本削减理论
该理论认为,公司为了节省计算成本而故意降低模型性能——本质上是通过量化或压缩模型来降低推理成本。这个理论一直带有些犬儒主义色彩,而 Anthropic 最近的透明举措(下文详述)在某种程度上反驳了它。寒假理论
该理论认为,GPT-4 在节假日期间学会了偷懒,因为它吸收了互联网上关于季节性懈怠的内容。这个理论至今仍无法证伪,但也颇为有趣。我们依然无法完全排除它,这本身就说明了我们对这些系统的理解是多么贫乏。训练数据陈旧理论
该理论提出,模型在初期表现良好,是因为它们的知识截止日期新,但随着它们遇到越来越多远离其训练数据分布的场景,性能便会下降。这个理论仍然缺乏明确证据,不过模型崩溃为长期性能退化提供了一个更具体、更令人担忧的机制。后训练理论
该理论认为,公司声称没有改变模型在技术上并未说谎,因为他们只承诺不做额外的预训练,这为持续的、可能会改变模型行为的后训练调整留下了空间。这仍然是合理的,并且随着我们从固定的模型版本转向持续更新的个性化模型,这个理论可能会变得更加可信。都是你的错觉理论
该理论认为,用户体验到了确认偏见和适应效应,他们对 AI 的能力变得不那么敏感,同时通过更多的使用发现了模型的边缘案例。在我看来,这个理论部分被证实了(确认偏见确实存在),但 Anthropic 最近的数据也揭示了真实的性能退化问题,而不仅仅是感知问题。真相如常,介于两者之间——一些抱怨反映了真实问题,另一些则反映了不断变化的期望和选择性记忆。
可以预见的是,人工智能公司继续否认做出了任何改变。前沿实验室坚称,每个新模型都比上一个更智能,并且他们以透明的名义公布了系统提示和系统说明。
直到上个月,Anthropic 发布了一份技术事后分析报告,揭示了三个相互重叠的错误,这些错误导致了 Claude 出现明显的性能问题。如果你和我一样热衷于钻研底层 AI 实现,那么无论如何都应该读一读。然而,其核心要点是:从一个完全成品的模型到一个成功托管的软件服务,中间有许多环节都可能出错。

三个新理论
基础设施问题理论
我在最初的文章中没有提及的一点是,我们常常将推理轻描淡写地视为一个已解决的问题。训练吸引了所有的注意力——惊人的计算需求、数据管道的挑战、规模法则。但是推理——它能有多难呢?
事实上,大规模服务大语言模型的复杂性是前所未有的。OpenAI、Anthropic、Google 等公司正在应对艰巨的系统设计挑战:在异构硬件平台(NVIDIA/AMD GPU、Google TPU、AWS/Oracle/Coreweave 集群)之间路由数百万个请求,在不同芯片间保持严格的质量等价性,处理可能耗时 100 毫秒或 30 秒的请求,同时还要进行全球负载均衡。
或许不足为奇的是,传统的软件错误——那些与模型训练或智能毫无关系的愚蠢基础设施问题——绝对会降低用户感知的模型质量。在 Anthropic 的事后分析报告中,他们遇到的两个问题就是典型的配置问题:
8月5日的一个微小路由错误,导致不到 1% 的请求被错误地路由到错误的服务器。但在8月29日,一次常规的负载均衡变更急剧放大了这个错误,最终影响了高达 16% 的请求。更糟糕的是,该路由系统具有粘性——一旦你的请求到达了错误的服务器池,后续请求将继续被发送到同样有问题的服务器。 一次 TPU 错误配置则更为离奇。从8月25日开始,一个糟糕的性能优化导致文本生成彻底失控。例如,用户用英语提问,却在响应中途突然看到随机的泰语或中文字符。这个问题影响了多个 Claude 模型长达数周,产生了类似模型精神错乱的怪异输出。
这些都不是核心的机器学习问题,而是基础设施问题。然而,用户的体验却与模型变笨无异。这份事后分析报告坦诚得令人耳目一新:“我们没有达到自己的标准。”但它也突显了这个问题是多么困难。
实现问题理论
Anthropic 事后分析报告中的第三个问题是一个潜伏在硬件/软件栈深处的错误,直到一次无辜的代码更改触发了它,才被发现。
去年12月,Anthropic 的工程师修复了一个与 Claude AI 模型计算 token 概率¹相关的错误。那个补丁本应是一个临时解决方案,而在今年8月,他们重写了代码以彻底移除这个临时方案。然而,这个修复却暴露了 TPU 运行的底层软件中一个更深层次的错误。
这个错误的不一致性令人抓狂:
它会根据不相关的因素而改变,比如在它之前或之后运行了什么操作,以及是否启用了调试工具。同一个提示,可能在上一个请求中完美运行,在下一个请求中就失败了。
多年来,我们都知道机器学习的实现是多么具有挑战性。团队在发现隐藏已久的错误后,常常能获得巨大的性能提升。转向专用 AI 硬件(TPU、定制 ASIC)更是成倍增加了出现错误的机会。每一个新的硬件平台都意味着新的编译器、新的优化过程和新的可能出现细微问题的地方。
与配置错误不同,这些错误几乎不可能通过标准评估检测出来。模型的能力没有改变——权重相同,架构相同。然而,执行过程却有细微的缺陷,导致间歇性的性能下降,看起来就像是智能漂移。
语境腐烂理论
但是,还有一个新理论是 Anthropic 的事后分析报告中没有涉及的:语境腐烂。
2024年,Chroma 的研究人员发表了关于语境腐烂的研究——这是一种随着输入上下文长度增加,大语言模型性能下降的现象。他们测试了包括 GPT-4.1、Claude 4 和 Gemini 2.5 在内的18个顶尖模型,并发现了一个令人不安的现象:**即使额外增加的内容在语义上是相关的,模型在长上下文上的表现也从短输入的约 95% 准确率下降到 60-70%**。

这与达到 token 限制截然不同,因为测试始终远未超出模型宣传的上下文窗口。问题更为根本:模型并非平等对待所有 token。随着上下文的增长,性能会不均衡地下降,并出现不同的失败模式——第十个 token 的处理精度与第一万个 token 是不同的。
现代聊天机器人,如 ChatGPT 和 Claude,正在不断扩展上下文窗口,以包含用户记忆、近期聊天历史、项目背景、自定义指令等。对于那些积累了大量记忆并保持长期对话的重度用户来说,每次请求中被注入的东西都在稳步增加。
会不会是我们正在集体触及一个模型临界点,即上下文膨胀导致了性能下降?这将解释为什么智能漂移的感觉不一致——它会因每个用户积累的上下文多少而异。那些抱怨最响亮的重度用户,恰恰是首先达到性能退化阈值的人。
这个时间点与抱怨出现的时间点吻合得令人起疑。随着平台增加持久化记忆和多文件分析等功能,它们在不知不觉中将更多用户推向了语境腐烂的悬崖。感觉像是模型变笨了,实际上可能是模型正在被上下文淹没。
模型崩溃的威胁
那么,这一切给我们带来了什么启示?智能漂移是真实的、多方面的,并且可能无法避免。而这一现实挑战了人工智能领域一个流行的说法:这是该技术有史以来最糟糕的状态。
这句话已经成了一句口头禅——每当有人抱怨 AI 的局限性时,总会有人回应说,这些系统只会不断改进,明年的模型会更好,我们正走在一条不可避免的上升轨道上。但如果这不是真的呢?如果随着这些系统变得越来越复杂,服务越来越多的用户,面临越来越多的限制,某些形式的性能退化根本就是无法避免的呢?
好消息是,我们正在为许多这类问题寻找解决方案。自动压缩上下文窗口有助于缓解语境腐烂;更敏感的评估可以帮助我们更快地检测到有细微损坏的基础设施。Anthropic 因其极其透明的事后分析报告而值得称赞,这能让整个领域共同进步。
但从长远来看,我们可能面临一个更根本的威胁:模型崩溃。
当生成式 AI 模型在先前 AI 模型的输出上进行训练时,无论是有意的(合成数据)还是无意的(互联网上的 AI 垃圾),都会发生模型崩溃。发表在《自然》杂志上的研究显示了不可逆转的缺陷,即内容分布的尾部会消失。模型失去多样性,稀有概念消失,输出会趋向于平淡、重复的模式。广义上讲,这类似于对一张复印件进行复印,再复印。
而且这个问题似乎正在加速。根据一项分析,截至今年四月,超过 74% 的新创建网页包含 AI 生成的文本。随着这些合成内容被抓取到未来的训练数据集中,每一代模型都是从一个日益污染的数据池中学习的。造就了 GPT-3 和 GPT-4 的丰富多样的人类表达,可能不再适用于 GPT-7 或 GPT-8。
基础设施的错误可以修复。语境腐烂可以管理。但模型崩溃代表了一种公地悲剧——每一条 AI 生成的内容单独来看都廉价且易于生产,但从集体来看,它们毒害了所有未来模型所依赖的数据生态系统。
有一些解决方案,但它们既不便宜也不容易:追踪数据来源、保存前 AI 时代的人类内容档案、更仔细地策划训练集、深思熟虑地混合合成数据与真实数据。而阻力最小(成本也最低)的路径,正导向 AI 模型一遍又一遍地反刍 AI 内容。

与智能漂移共存
最终,我认为智能漂移这个术语为我们描述所有这些问题提供了语言——从短暂的基础设施错误到关乎存亡的数据污染。无论原因如何,用户体验都是一样的:AI 随着时间的推移感觉越来越笨。
可悲的是,智能漂移之谜并未解开。如果说有什么进展,那就是它变得更复杂了——我们从“不知道为什么”变成了“是三到六个不同问题同时发生的结果”。
但这实际上是进步!有了名字的问题就可以被研究、被衡量,并且(有时)被修复。
更难的问题是,我们是否在稳固的基础上进行建设。传统软件是可靠的,因为它是确定性的和可组合的。但大语言模型不同。它们是非确定性的,它们的行为从数十亿个参数中涌现出来,我们通过前所未有复杂的基础设施来使用它们。再加上语境腐烂、模型崩溃,以及专用硬件上浮点精度的脆弱性,你得到的可能是一个内在不稳定的系统。
Anthropic 的联合创始人 Jack Clark 最近谈到了人工智能进步的未来,以及他为何使用生长而非制造这个词:
“这项技术确实更类似于生长出来的东西,而不是制造出来的——你组合好合适的初始条件,在地上插一根支架,然后某种复杂到你根本无法指望自己设计出来的东西就长出来了。
所以,也许我们看待这个问题的角度是错误的。也许我们不应该期望 AI 像一个无菌、无生命的工具一样运作,而应该更像对待一个花园一样对待它——需要持续的监控、优雅的降级和对冲策略。
也许未来不是你可以信任的 AI,而是你可以培育的 AI。
作者:CHARLIE GUO
日期:2025年10月16日
一键三连「