DeepMind:Transformer存在拓扑缺陷,思维链治标不治本

机器之心 2026-06-17 18:00
DeepMind:Transformer存在拓扑缺陷,思维链治标不治本图1
编辑|Panda

如今,链(CoT)已然成为前沿模型的标配。其机制并不复杂:用户提一个问题,模型会先输出一大段内部推导过程(有时候长达几千个词),然后才给出正式答案。


然而,随着模型能力的提升,思维链也越来越长,成本也就水涨船高,越来越贵。社交网络上,我们经常能看到 AI 重度用户望账单而兴叹,悲钱包之空瘪。


Claude Fable 5 发布后,前沿模型的使用成本更是惊人,以至于让一些用户发出了感叹:「只有开赌场和搞诈骗的才用得起」。


但是,或许,这条不断提升思维能力的路可能本就走错了方向。


近日,一篇来自谷歌 DeepMind 的论文《Transformer 的拓扑麻烦》以一个看似简单的问题,撼动了整个行业的底层逻辑:Transformer 架构本身,就不擅长追踪状态;而「思维链」不过是在给这个结构性缺陷打补丁。


DeepMind:Transformer存在拓扑缺陷,思维链治标不治本图2



值得注意的是,这篇论文的第一作者 Michael C. Mozer 是 DeepMind 的研究科学家,也是循环神经网络领域的资深研究者。他在 1991 年就提出了处理多尺度时序结构的循环网络模型,并在整个 1990 年代深入研究过 RNN 的梯度消失问题。正是这些工作,在当年埋下了 LSTM(长短期记忆网络)诞生的伏笔。


DeepMind:Transformer存在拓扑缺陷,思维链治标不治本图3


几十年后,他重新审视这个问题。这一次,他的对手换成了主宰整个 AI 时代的 Transformer。


Transformer 为何如此强大,又有何隐患?


要理解这篇论文,先得明白 Transformer 是如何工作的。


DeepMind:Transformer存在拓扑缺陷,思维链治标不治本图4

原初 Transformer 架构


我们可以想象一座图书馆。每次有人提问,图书馆员不会「记住」之前说过什么,而是把所有对话记录摆在桌上,重新翻阅一遍,然后作答。


这就是 Transformer 的核心策略:把整个对话历史都装进「上下文窗口」,通过「注意力机制」检索过去的信息。这个策略非常有效:它绕开了早期循环神经网络(RNN)难以记住远距离信息的老问题,并由此催生了 GPT、Claude、Gemini、DeepSeek 等一系列大模型。


但这个策略有一个根本性的缺陷,论文称之为「状态追踪(State Tracking)」问题。


所谓状态追踪,是指在对话或推理过程中,模型需要维护一个不断更新的「内部状态」,比如对话进行到哪一步、当前场景里哪个人在哪里、一道逻辑题现在推理到哪个环节。


人类在思考时,这种追踪是自动完成的,往往无需刻意思考。但对于 Transformer 来说,每整合一条新信息,这个「内部状态」就必须被推送到网络更深的层次,而网络的深度是有限的,一旦耗尽,模型便无法继续可靠地追踪状态。


DeepMind:Transformer存在拓扑缺陷,思维链治标不治本图5


论文用一个直观的比喻解释了这一点:把 Transformer 想象成一栋楼,信息从底层流向顶层。每处理一个新输入,模型的「状态表示」就得搬到更高一层。楼层不是无限的,搬到顶了,就搬不动了。


「思维链」是个变通,但非解决方案


论文中,谷歌 DeepMind 的作者们用了几个令人印象深刻的例子,展示了 Transformer 的状态追踪失效有多么日常。


第一个例子,是让模型扮演「猜数字」游戏:由模型心里默想一个 1 到 100 之间的数字,用户来猜,模型只回答「更大」或「更小」。这个游戏的关键在于,模型必须始终记住自己想的那个数,并对每次猜测给出一致的反馈。然而,论文展示了 Gemini 3(Fast)的失败:


用户猜 60,模型说「更小」;用户猜 41,模型说「更小」;用户猜 70,模型却说「更大」——前后矛盾,破绽立现。


DeepMind:Transformer存在拓扑缺陷,思维链治标不治本图6


更耐人寻味的是,即便是加入了「思考」模块的 Gemini 3 Thinking,也出了岔子。模型在思考阶段明确写下「我选定了数字 42,60 比 42 大,所以应该回答更小」——但当用户猜 42 时,模型依然回答「更小」,等于忘了自己刚刚说的话。


DeepMind:Transformer存在拓扑缺陷,思维链治标不治本图7


第二个例子,则是经典的「河岸还是银行?」歧义测试。同一个英文单词「bank」,可以是河岸,也可以是银行。模型在第一轮正确判断弗雷德去的是河边,但第二轮被问到「他那里有没有 ATM 机」时,却改口说「有,大多数银行旁边都有 ATM」。前后矛盾,毫无察觉。


DeepMind:Transformer存在拓扑缺陷,思维链治标不治本图8


这不是偶发的「幻觉」,而是架构性缺陷的必然结果。论文通过神经网络可解释性工具 Patchscopes 观察到:模型对「bank」的语义消歧,发生在网络第六层(较深位置);但当模型处理后续输入时,浅层(第 1 至 5 层)根本「看不到」这个消歧结果,只能基于粗浅的词频关联(「银行」→「ATM」)给出反应。


状态确实被更新了,但更新的结果埋得太深,后续处理无法访问。


目前主流的解决方案「思维链」的原理,是让模型把那个埋得很深的状态「打印出来」,变成可见的文字输出,再重新读入。这样,深层信息就被「搬运」到了新一轮处理的表层。


这确实有效,但代价也大:大量计算被用于输出这些「中间思考」,上下文窗口被大量占用,推理成本随之飙升。


对此,论文中表示:「对于人们自动完成、毫无意识的推断,比如判断一个词的含义,根本不需要诉诸繁复的外显思考。」


如何解决:重新拥抱「循环」


论文的核心主张是将研究重心从「外显思维链」转向「隐式激动态」。换言之,用循环(Recurrent)架构来替代或补充当前的纯前馈(Feedforward)结构。


论文为此建立了一套分类体系,将各类「循环 Transformer」按两个维度划分:循环发生在哪个轴(深度方向还是序列方向)、每个循环步骤处理几个输入词。


在「深度方向循环」上,研究者们已探索出「循环 Transformer」(Looped Transformer)、「通用 Transformer」(Universal Transformer)等架构,允许同一组网络层被反复使用。但论文指出,深度循环依然没有解决根本问题:状态表示仍然会随着序列增长而被推向更深层,只是慢了一点。


DeepMind:Transformer存在拓扑缺陷,思维链治标不治本图9


真正能做到「无限期状态追踪」的,是沿序列方向的循环,即每处理一个新输入,都将前一步的状态向量显式传递进来。


这与传统 RNN 的做法一脉相承,但结合了现代注意力机制的优势。论文列举了 MAMBA、RWKV-7、DeltaNet 等状态空间模型(SSM)和线性注意力架构,认为它们代表了这条路线的最新进展。


特别值得关注的是 DeltaNet 的改进版本:通过将特征值范围扩展至负数,它在保留并行训练优势的同时,实现了超越标准 Transformer 的状态追踪能力,并在大规模语言建模测试中展现出竞争力。


DeepMind:Transformer存在拓扑缺陷,思维链治标不治本图10


论文还提出了几个前景看好的研究方向:在更粗粒度上引入循环(例如以句子为单位而非词元);利用残差连接带来的表示对齐来降低循环训练成本;以及分阶段训练策略——先用标准前馈架构预训练,再引入循环机制进行微调。


下一代大模型,需要会流动的记忆


「思考」这个能力,如今已成为顶级 AI 产品的标配卖点。但论文给出了一个清醒的提醒:现在的「思考」,更像是用语言在黑板上演算,而不是真正的内心动态。


一个人读一本小说,不需要每翻一页就把前面发生的事「朗读出来」,才能记住故事线索。这种背景性的、流动的状态维护,对人类来说几乎是零成本的。


而大模型现在做不到这件事。


论文的结论认为,下一代基础模型必须超越「反复检索历史文本」的策略,转而构建「流动的、持续演化的现实表示」,横跨多个时间尺度。这不只是效率问题,而是通向真正稳定、连贯的长时认知的必由之路。


从 Transformer 的「记忆检索」到真正的「状态维护」,这条路还很长。但现在,有人已经看清了地图上那道弯。


DeepMind:Transformer存在拓扑缺陷,思维链治标不治本图11


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
more
台湾IC设计业5月营收加速分化:存储与AI服务器芯片领涨
5月份稼动率回落至83%左右!BOE回应存储涨价影响:TV面板影响有限、OLED市场需求承压
重磅!中国存储巨头IPO获批
英伟达与SK海力士签署多年期存储合作:AI服务器、PC与机器人平台同步绑定
存储双雄,进军PIM
228亿!千亿存储大厂连签大单
存储需求砍半?黄仁勋狠狠“打脸”,官宣“硬核级”AI合作!
汽车早餐 | 近三月车规级存储芯片价格暴涨180%;消息称小鹏机器人核心人物离职;我国乘用车12年“胖”了近400公斤
AI引爆存储“超级周期”,铨兴科技如何以存算协同破局?
【存储器】内存接口风起,澜起科技云涌
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号