揭秘AI智能漂移：导致模型降智的3个技术硬伤

去年，我写过一个奇怪的现象——大语言模型给人的体验虽不乏坊间传闻，却又普遍存在：它们初见时表现惊艳，之后却随着时间的推移而逐渐变笨。

全文4686字，文末附音频播客。

用户反馈，像 GPT-4 和 Claude 3.5 Sonnet 这样的模型，给出的答案质量越来越差，响应不完整，甚至会直接拒绝工作。

在那篇文章中，我探讨了几种不同的理论，但没能找到一个令人满意的解释。其他人也一样。

从那时起，我开始将这种现象称为“智能漂移”——这个术语抓住了用户的体验，而不管其根本原因是什么。无论是为了节省成本而偷工减料，还是模型本身的局限性，亦或是季节性的懒惰，用户体验到的都是同一件事：人工智能给人的感觉是，其智能程度正在随时间下降。

因为人们仍然在抱怨，而我们仍然没有任何清晰、明确的答案——尽管这种情况正开始改变。

人们仍在抱怨大语言模型变笨

当我回头审视人们是否对最新模型感到满意时，我惊讶地发现抱怨声从未真正停止。如果说有什么变化的话，那就是随着越来越多的人依赖这些工具进行关键性工作，抱怨声反而愈演愈烈了。

仅过去几个月的 Reddit 和 Hacker News 上的帖子：

我现在从 Claude 得到的输出比两年前还差。这并非夸张。
Claude 曾经是个性能猛兽。快进到今天，感觉就像在和一个害怕自己影子的、坏掉了的算法对话。
提问 HN：为什么 ChatGPT 现在变得更差了？
Claude 的代码能力确实变差了——证据在此
最近几周，你是否觉得 Claude 的代码能力不那么有用了？

这种模式与我去年所写的内容如出一辙。用户报告说，几个月前还能可靠完成的任务现在却失败了，响应感觉更加空泛通用，模型似乎在对话中途就忘记了上下文。此外，这些报告来自重度用户——开发者、作家和研究人员——他们每天都使用这些工具，并能注意到细微的性能退化。

那么，自从我上一篇文章以来，情况有什么变化？我们在理解究竟发生了什么方面，是否取得了任何进展？

旧理论现在怎么样了？

在深入探讨新证据之前，让我们先回顾一下旧的理论：

成本削减理论
该理论认为，公司为了节省计算成本而故意降低模型性能——本质上是通过量化或压缩模型来降低推理成本。这个理论一直带有些犬儒主义色彩，而 Anthropic 最近的透明举措（下文详述）在某种程度上反驳了它。
寒假理论
该理论认为，GPT-4 在节假日期间学会了偷懒，因为它吸收了互联网上关于季节性懈怠的内容。这个理论至今仍无法证伪，但也颇为有趣。我们依然无法完全排除它，这本身就说明了我们对这些系统的理解是多么贫乏。
训练数据陈旧理论
该理论提出，模型在初期表现良好，是因为它们的知识截止日期新，但随着它们遇到越来越多远离其训练数据分布的场景，性能便会下降。这个理论仍然缺乏明确证据，不过模型崩溃为长期性能退化提供了一个更具体、更令人担忧的机制。
后训练理论
该理论认为，公司声称没有改变模型在技术上并未说谎，因为他们只承诺不做额外的预训练，这为持续的、可能会改变模型行为的后训练调整留下了空间。这仍然是合理的，并且随着我们从固定的模型版本转向持续更新的个性化模型，这个理论可能会变得更加可信。
都是你的错觉理论
该理论认为，用户体验到了确认偏见和适应效应，他们对 AI 的能力变得不那么敏感，同时通过更多的使用发现了模型的边缘案例。在我看来，这个理论部分被证实了（确认偏见确实存在），但 Anthropic 最近的数据也揭示了真实的性能退化问题，而不仅仅是感知问题。真相如常，介于两者之间——一些抱怨反映了真实问题，另一些则反映了不断变化的期望和选择性记忆。

可以预见的是，人工智能公司继续否认做出了任何改变。前沿实验室坚称，每个新模型都比上一个更智能，并且他们以透明的名义公布了系统提示和系统说明。

直到上个月，Anthropic 发布了一份技术事后分析报告，揭示了三个相互重叠的错误，这些错误导致了 Claude 出现明显的性能问题。如果你和我一样热衷于钻研底层 AI 实现，那么无论如何都应该读一读。然而，其核心要点是：从一个完全成品的模型到一个成功托管的软件服务，中间有许多环节都可能出错。

三个新理论

基础设施问题理论

我在最初的文章中没有提及的一点是，我们常常将推理轻描淡写地视为一个已解决的问题。训练吸引了所有的注意力——惊人的计算需求、数据管道的挑战、规模法则。但是推理——它能有多难呢？

事实上，大规模服务大语言模型的复杂性是前所未有的。OpenAI、Anthropic、Google 等公司正在应对艰巨的系统设计挑战：在异构硬件平台（NVIDIA/AMD GPU、Google TPU、AWS/Oracle/Coreweave 集群）之间路由数百万个请求，在不同芯片间保持严格的质量等价性，处理可能耗时 100 毫秒或 30 秒的请求，同时还要进行全球负载均衡。

或许不足为奇的是，传统的软件错误——那些与模型训练或智能毫无关系的愚蠢基础设施问题——绝对会降低用户感知的模型质量。在 Anthropic 的事后分析报告中，他们遇到的两个问题就是典型的配置问题：

8月5日的一个微小路由错误，导致不到 1% 的请求被错误地路由到错误的服务器。但在8月29日，一次常规的负载均衡变更急剧放大了这个错误，最终影响了高达 16% 的请求。更糟糕的是，该路由系统具有粘性——一旦你的请求到达了错误的服务器池，后续请求将继续被发送到同样有问题的服务器。
一次 TPU 错误配置则更为离奇。从8月25日开始，一个糟糕的性能优化导致文本生成彻底失控。例如，用户用英语提问，却在响应中途突然看到随机的泰语或中文字符。这个问题影响了多个 Claude 模型长达数周，产生了类似模型精神错乱的怪异输出。

这些都不是核心的机器学习问题，而是基础设施问题。然而，用户的体验却与模型变笨无异。这份事后分析报告坦诚得令人耳目一新：“我们没有达到自己的标准。”但它也突显了这个问题是多么困难。

实现问题理论

Anthropic 事后分析报告中的第三个问题是一个潜伏在硬件/软件栈深处的错误，直到一次无辜的代码更改触发了它，才被发现。

去年12月，Anthropic 的工程师修复了一个与 Claude AI 模型计算 token 概率¹相关的错误。那个补丁本应是一个临时解决方案，而在今年8月，他们重写了代码以彻底移除这个临时方案。然而，这个修复却暴露了 TPU 运行的底层软件中一个更深层次的错误。

这个错误的不一致性令人抓狂：

它会根据不相关的因素而改变，比如在它之前或之后运行了什么操作，以及是否启用了调试工具。同一个提示，可能在上一个请求中完美运行，在下一个请求中就失败了。

多年来，我们都知道机器学习的实现是多么具有挑战性。团队在发现隐藏已久的错误后，常常能获得巨大的性能提升。转向专用 AI 硬件（TPU、定制 ASIC）更是成倍增加了出现错误的机会。每一个新的硬件平台都意味着新的编译器、新的优化过程和新的可能出现细微问题的地方。

与配置错误不同，这些错误几乎不可能通过标准评估检测出来。模型的能力没有改变——权重相同，架构相同。然而，执行过程却有细微的缺陷，导致间歇性的性能下降，看起来就像是智能漂移。

语境腐烂理论

但是，还有一个新理论是 Anthropic 的事后分析报告中没有涉及的：语境腐烂。

2024年，Chroma 的研究人员发表了关于语境腐烂的研究——这是一种随着输入上下文长度增加，大语言模型性能下降的现象。他们测试了包括 GPT-4.1、Claude 4 和 Gemini 2.5 在内的18个顶尖模型，并发现了一个令人不安的现象：**即使额外增加的内容在语义上是相关的，模型在长上下文上的表现也从短输入的约 95% 准确率下降到 60-70%**。

来源：Chroma Research

这与达到 token 限制截然不同，因为测试始终远未超出模型宣传的上下文窗口。问题更为根本：模型并非平等对待所有 token。随着上下文的增长，性能会不均衡地下降，并出现不同的失败模式——第十个 token 的处理精度与第一万个 token 是不同的。

现代聊天机器人，如 ChatGPT 和 Claude，正在不断扩展上下文窗口，以包含用户记忆、近期聊天历史、项目背景、自定义指令等。对于那些积累了大量记忆并保持长期对话的重度用户来说，每次请求中被注入的东西都在稳步增加。

会不会是我们正在集体触及一个模型临界点，即上下文膨胀导致了性能下降？这将解释为什么智能漂移的感觉不一致——它会因每个用户积累的上下文多少而异。那些抱怨最响亮的重度用户，恰恰是首先达到性能退化阈值的人。

这个时间点与抱怨出现的时间点吻合得令人起疑。随着平台增加持久化记忆和多文件分析等功能，它们在不知不觉中将更多用户推向了语境腐烂的悬崖。感觉像是模型变笨了，实际上可能是模型正在被上下文淹没。

模型崩溃的威胁

那么，这一切给我们带来了什么启示？智能漂移是真实的、多方面的，并且可能无法避免。而这一现实挑战了人工智能领域一个流行的说法：这是该技术有史以来最糟糕的状态。

这句话已经成了一句口头禅——每当有人抱怨 AI 的局限性时，总会有人回应说，这些系统只会不断改进，明年的模型会更好，我们正走在一条不可避免的上升轨道上。但如果这不是真的呢？如果随着这些系统变得越来越复杂，服务越来越多的用户，面临越来越多的限制，某些形式的性能退化根本就是无法避免的呢？

好消息是，我们正在为许多这类问题寻找解决方案。自动压缩上下文窗口有助于缓解语境腐烂；更敏感的评估可以帮助我们更快地检测到有细微损坏的基础设施。Anthropic 因其极其透明的事后分析报告而值得称赞，这能让整个领域共同进步。

但从长远来看，我们可能面临一个更根本的威胁：模型崩溃。

当生成式 AI 模型在先前 AI 模型的输出上进行训练时，无论是有意的（合成数据）还是无意的（互联网上的 AI 垃圾），都会发生模型崩溃。发表在《自然》杂志上的研究显示了不可逆转的缺陷，即内容分布的尾部会消失。模型失去多样性，稀有概念消失，输出会趋向于平淡、重复的模式。广义上讲，这类似于对一张复印件进行复印，再复印。

而且这个问题似乎正在加速。根据一项分析，截至今年四月，超过 74% 的新创建网页包含 AI 生成的文本。随着这些合成内容被抓取到未来的训练数据集中，每一代模型都是从一个日益污染的数据池中学习的。造就了 GPT-3 和 GPT-4 的丰富多样的人类表达，可能不再适用于 GPT-7 或 GPT-8。

基础设施的错误可以修复。语境腐烂可以管理。但模型崩溃代表了一种公地悲剧——每一条 AI 生成的内容单独来看都廉价且易于生产，但从集体来看，它们毒害了所有未来模型所依赖的数据生态系统。

有一些解决方案，但它们既不便宜也不容易：追踪数据来源、保存前 AI 时代的人类内容档案、更仔细地策划训练集、深思熟虑地混合合成数据与真实数据。而阻力最小（成本也最低）的路径，正导向 AI 模型一遍又一遍地反刍 AI 内容。

与智能漂移共存

最终，我认为智能漂移这个术语为我们描述所有这些问题提供了语言——从短暂的基础设施错误到关乎存亡的数据污染。无论原因如何，用户体验都是一样的：AI 随着时间的推移感觉越来越笨。

可悲的是，智能漂移之谜并未解开。如果说有什么进展，那就是它变得更复杂了——我们从“不知道为什么”变成了“是三到六个不同问题同时发生的结果”。

但这实际上是进步！有了名字的问题就可以被研究、被衡量，并且（有时）被修复。

更难的问题是，我们是否在稳固的基础上进行建设。传统软件是可靠的，因为它是确定性的和可组合的。但大语言模型不同。它们是非确定性的，它们的行为从数十亿个参数中涌现出来，我们通过前所未有复杂的基础设施来使用它们。再加上语境腐烂、模型崩溃，以及专用硬件上浮点精度的脆弱性，你得到的可能是一个内在不稳定的系统。

Anthropic 的联合创始人 Jack Clark 最近谈到了人工智能进步的未来，以及他为何使用生长而非制造这个词：