Sutton判定「LLM是死胡同」后，新访谈揭示AI困境

机器之心报道

机器之心编辑部

在这个新访谈中，Sutton 与多位专家一起，进一步探讨 AI 研究领域存在的具体问题。

在大模型圈子里，强化学习之父、图灵奖得主 Rich Sutton 所著《苦涩的教训（The Bitter Lesson）》已经成为圣经一般的存在。如果一个方法能够随着算力的增加而自然受益，大家就会觉得这个方法符合《苦涩的教训》所传达的精神，值得进一步研究。

多年以来，LLM 一直被视为《苦涩的教训》的绝佳范例。但出人意料的是，Sutton 本人在前段时间的一次采访中给这个想法泼了盆冷水，直言 LLM 是死胡同，不确定其是否真的符合《苦涩的教训》。

Sutton 最近在 Dwarkesh Patel 的播客《The Dwarkesh Podcast》上的一次访谈。

Sutton 给出的理由是：LLM 存在重大缺陷，无法从持续的实际互动中学习。Sutton 心中设想的是一种完全不同的智能架构，而 LLM 的工作方式在很多方面都违背了他所坚持的原则。

Sutton 回溯到了图灵最初提出的「儿童机器（child machine）」的概念，即一个能够通过与世界动态交互、从经验中学习的系统。在这种设想中，没有那种先模仿整个互联网网页的大规模预训练阶段，也不存在后来的人为监督微调。他特别指出，监督微调在自然界中是不存在的。他还强调了另一点：即使你把预训练看作是在强化学习之前的一种「先验初始化」，这种方法依然被人类偏见污染，从根本方向上就是错的。

在 Sutton 的世界观中，智能的一切都来自于通过强化学习与环境的持续交互。奖励函数部分由环境决定，但也包含内在动机，比如好奇心、兴趣、探索的乐趣等，这些都与智能体世界模型中预测的质量相关。在这种框架下，智能体在测试阶段仍然持续学习，学习不是「一次训练、永久部署」，而是一种默认持续进行的过程。

Sutton 的这些观点引发了诸多争议，他本人也参与了近期的一场新圆桌，进一步讨论上述问题。

这场圆桌由投资机构 Intrepid Growth Partners 发起，其创始人兼合伙人 Ajay Agrawal 担任主持，MIT 教授 Sendhil Mullainathan、应用人工智能科学家 Niamh Gavin、Nirvanic Consciousness Technologies 创始人兼 CEO Suzanne Gildert 也参与了讨论。

这些专家碰撞出了许多有价值的观点。以下是机器之心对播客内容的整理：

纯粹的强化学习很难实现

主持人: Suzanne，我想问问您的看法，Rich 在那期播客中说的一句话，我好像也听您说过，他说：「如果我们能造出与松鼠心智相当的东西，那我们基本上就成功了。」播客的主持人当时举了登月这样的例子，感觉人类登月和松鼠藏坚果之间差距巨大。但我知道，您的世界观其实与 Rich 的更为接近。

Suzanne: 关于松鼠的问题，我认为构建一个松鼠那样的心智，要比构建一个能通过我所说的「高级监督学习」来执行任务的系统难得多。因为我们目前所做的一切基本上都是监督学习，并没有真正意义上的强化学习在发生。每当有人尝试进行纯粹的强化学习时，他们最终总是会回到模仿学习的道路上。

因为我相信，纯粹的强化学习是极其困难或不可能实现的，因为我们无法定义通用的奖励函数。因此，我认为在我们找到定义、获取或创造通用奖励函数的方法之前，我们无法最大限度地发挥强化学习的潜力。

而我理想中的那种能力是，你可以像对待一只松鼠那样，把它放到一个新环境中，它就能自主地开始学习。你可以将任何智能体置于一个全新的环境中，它会自己开始学习。而我们今天的任何系统都做不到这一点。所以，这就是我们需要构建的系统与我们目前所认为的智能系统之间的区别。我们现有的系统非常聪明和智能，但如果你把它们放到一个从未见过的新场景或新用例中，它们无法学习。因此，关键在于「学习」这个部分，重要的不是它能做什么、它已经学会了什么，而是「它如何学习新事物」。

只有「利用」，没有「探索」

主持人：好的，我们先听听 Niamh 的看法，然后是 Sendhil，最后请 Rich 回应。Niamh，您可以随意选择任何您感兴趣的话题进行展开。

Niamh：或许作为一名正身处这场技术浪潮中心的人，我可以快速地从头到尾梳理一下各个流派的想法。我时常对一件事感到惊讶：硅谷本应是思想自由的家园，但有时却表现出惊人的「派系化」倾向。而我个人更倾向于博采众长，从各个流派中借鉴思想。

理想情况下，当我们构建这些模型时，我们当然希望它们能从第一性原理出发，通过自身经验去发现和学习。但这存在一个「冷启动问题」。因此，许多人选择了一条捷径，那就是直接吸收整个互联网的数据。

这背后的原因有两点：他们认为写作是我们思维机制的良好体现，并且语言是区分我们与其他物种的关键元素。因此，它应该是一个足够好的起点。

挑战在于，我们在模型设计的每个环节上都走向了极端。例如，强化学习本应是「利用」与「探索」的良好结合。然而，我们所做的却是在有限的经验或内置的价值函数基础上，进行纯粹的「利用」。这导致的结果，正如 Suzanne 所说，更多的是模式识别，而非真正的理解；更多的是模仿，而非直觉思维。而自回归机制本身，就像是神经网络的顺序展开，更像是一条通往激活状态的序列化路径，而不是一个可以随时间微调、真正基于目标的目标函数。

所以我认为，我们中没有人会觉得「一个大语言模型加上一个好的提示词」就是人工智能的未来。理想情况下，我们都希望迈向那个难以捉摸的「通用近似器」—— 它具有泛化能力、能够进行迁移学习，并拥有一个像 Suzanne 提到的通用奖励函数。

现在，你已经开始看到这种转变。人们逐渐意识到大语言模型的局限性或脆弱性，并尝试创造更多持续学习的机制。至于这是否意味着回归到贝叶斯方法，或是采用演化算法来实现跨越式发展，目前尚无定论。

其次，是关于数据本身的问题。数据不一定是有噪声的，但它是否从我们真正关心的分布中采样而来？它并非基于思维模式，而是基于写作。而我们写作时的思考方式，与我们在现实世界中的思考方式不尽相同。这就是为什么我们现在看到向嵌入式系统的突然转变，它更趋向于一种「通过实践来学习」的机制，更侧重于价值函数而非奖励函数，并且是一种更少基于规则、更具探索性的经验获取方式。

还有一派人认为，通用人工智能将通过复制大脑来实现。但我不太认同这个方向。我一直觉得，我们应该让计算机去做它擅长而人类不擅长的事情，而不是一味模仿人类。我确实认为，在「缸中之脑」这个意义上，两者存在根本性的底层机制差异：人工智能的计算架构是简单的电子电路，而真实的生物系统是离子，它们速度慢，但效率极高。这就引出了一个问题：语言对于智能是基础性的吗？还是说智能仅仅是相互连接的网络？也许我们只是需要新的理论图景。

所有这一切的核心要素是，如果模型确实实现了这些巨大的飞跃 —— 这又回到了 Sendhil 的观点 —— 我们确实需要某种「机制可解释性」来剖析这些新设计，以理解它们是否可行以及是如何产生的。这有点像 AlphaGo 那著名的第 37 手，对吧？你如何从中追溯其思考路径和因果效应？

关于如何建立追踪机制和因果推断这个问题，其实最后还涉及到费曼学派那种「无法构建就意味着不理解」的理念。确实，我们虽然构建了 CNN 处理视觉任务，用 LLM 处理语言任务，但对这些模型涌现特性的理解仍非常有限。这不禁让人思考：这些工作到底有没有帮助我们真正理解神经网络？当下各种学术流派交汇之处正是思想摩擦的焦点，但在我看来，这些交叉领域才是最值得深耕的沃土。

苦涩教训被极端化理解成了非此即彼的筛选机制 —— 要么全盘接受算力优先，要么完全否定。但复制 40 亿年进化历程是极其复杂的工程，仅完成果蝇连接组就耗费了我们数十年，更不用说松鼠级别的神经系统了。或许我们该暂时放下傲慢，更多拥抱科学方法论与探索精神，而不是像拿着锤子逐词处理那样机械地推进。当然这些话题更期待 Rich 教授的深度见解，我不过是这个领域的过客与旁观者。

只模仿最终表现是不够的

Sendhil Mullainathan：Richard，我发现你转发的一条推文很有意思。虽然你原推文提到斑胸草雀（说实话我之前根本不认识这种鸟），不过我可以引用 Chris 转评的内容。他指出你的核心观点是：当人类进行模仿时，我们模仿的是最终表现，但必须自行探索实现过程 —— 这个洞见简直直击问题本质。网上可能很多人没能理解这个精微区别，这完全可以理解，因为其中的确充满微妙之处。

关键在于探索过程这个动词。我们与世界的联系始终停留在表层：听到斑胸草雀的鸣叫，看到他人完成代数证明，这些都只是表象。我们无法直接观测到内在机制：鸟类如何调动鸣肌，解题者如何构思证明步骤。即使是在高阶认知活动中，当有人向我们解释某事时，那仍然只是表层信息。我们始终需要动用自身认知系统去探寻：在物理层面这些结果究竟是如何产生的？

这个认知逻辑非常清晰。就像听到鸟鸣后想要模仿，我们不可能知晓鸟类具体如何控制鸣管，只能用自己的声带反复尝试。认知活动也是同理。即使是在相互解释时 —— 不知道你们是否听过那个关于冯・诺依曼的火车谜题轶事？两列相向而行的火车，有蜜蜂往返其间，要求计算蜜蜂总飞行距离。冯・诺依曼瞬间给出答案，当被问及是否用了取巧方法时，他反问道：什么巧解？其实这个问题确实存在通过洞察规律快速求解的方法，当然也可以选择暴力计算无穷级数 —— 虽然没人会这么做。

这个故事之所以令我回味，是因为它揭示了一个本质：即使我们目睹认知活动的成果，甚至获得详细解释，不同个体构建内部表征的过程依然独一无二。

我之所以展开这些讨论，是因为这个区分让我豁然开朗：如果强制模型必须理解特定行动会产生何种结果，它就不得不构建行动与结果之间关系的内部表征。按照我的理解，这或许正是当前模型缺乏良好世界模型的关键原因 —— 它们没有被强制要求探索在特定行动空间中，哪些操作能产生我们观察到的结果（无论是语言表达还是数学证明）。不过我们也能观察到某些领域它们确实建立了完善的世界模型，比如国际象棋或围棋 —— 在这些明确行动空间到结果输出的领域，算法确实构建了从行动到结果的映射关系。这个能力边界正在持续扩展，只是与基于文本语料训练的语言模型有着本质区别。

LLM 可能败在无法在短期内兑现承诺

Richard Sutton：感谢各位，刚才的讨论充满了真知灼见。但我想强调的是，虽然我们本质上都是科学家，习惯聚焦学术理念，但此刻我们正在尝试某种突破，我们其实是在审视这个领域的学术生态。没错，我过去常轻描淡写地用学术风尚来形容这种现象，但这个说法确实有失公允。

这更像是学术社群中不同思维模式的碰撞。科学史上始终存在多元思维方式，但当下情况更为特殊，当某种思维范式获得统治性地位时，要知道现在每年有数百上千亿美元基于特定理念投入 AI 领域，这不可避免会改变科学研究的本质。

关于苦涩教训的讨论，我想尝试做个总结。虽然我已经涉足了学术生态学分析，但这本质上是个社会学命题而非纯科学陈述。它揭示的是研究群体反复陷入的思维误区。传统 AI 研究始终围绕目标展开，整个领域都聚焦于解决问题、达成目标。

而现在，我们进入了一个全新的阶段：出现了一个强大而占主导地位的思潮，主张我们无需设定目标，只需模仿人类行为。这种观点认为，当模仿达到足够规模、算力与数据量级时，系统将发生质变，最终真正理解世界。它们不再只是机械模仿，而是获得了对世界的认知模型。

我始终认为这是个极端主张，正如那句名言「非凡的论断需要非凡的证据」。当下我们见证的正是这样的非凡论断：仅通过观察人类行为样本，依靠下一个词预测与微调，就能涌现理解与推理能力（他们甚至大胆启用了推理这个术语）。而坚持目标导向与实践经验至关重要的传统认知，反而被视作极端观点。

在当今以大语言模型为中心的讨论中，经过之前关于苦涩教训的探讨，我想聚焦一个核心问题：大语言模型将走向何方？这个问题我通常无法回答，因为我致力于其他技术路径的探索。

其实我不该对别人的技术路线妄加评论，这几乎有失礼节。但公众关注的焦点确实在于此：人们想知道我是否认为大语言模型违背苦涩教训的核心理念，最终沦为无关紧要的失败尝试？我们有必要深入思考并形成判断：它们会失败吗？这种失败未必指技术完全无效，而是指无法实现其承诺的宏伟愿景，考虑到投入这些系统的巨额资金，最近有位教授尖锐指出：如果大语言模型和 AI 技术需要 15 年才能兑现价值，那将是场灾难。因为当前投入的资金规模与承诺预期，若三年内未见成效，就可能引发市场崩溃或泡沫破裂。

换言之，它们在某些领域确实具有实用价值，但终将面临泡沫破裂，因为投资回报率无法匹配巨额投入。用苦涩教训的视角解读：将全部筹码押注在人类知识上是危险的，因为人类知识本身不具备可扩展性。而当前大语言模型的发展路径恰恰重蹈了这个覆辙。

需要说明的是，我并非大语言模型专家，精通大语言模型的研究者也非常少。但我们可以观察到：它们通过模仿人类行为与语言符号进行训练，试图复现人类可能生成的文本。但仅凭这点无法造就优秀的现代大语言模型，后续还需要大量微调与人类反馈强化学习（RLHF），投入巨大工程努力才使其成为实用工具（如摘要、翻译、问答）。它们能聚焦用户问题，正是因为在自然人类语言基础上附加了额外设计。这些系统经过大量人工设计，正因如此，其发展可能受限于可扩展性，过度依赖人类输入，而互联网数据虽规模庞大，终究存在边界。

据此我们或许可以推测：大语言模型终将触达互联网数据的边界，继而陷入过度依赖专家微调的困境。这将成为苦涩教训的又一个典型案例 —— 当系统无休止地依赖人工调试时，其失败几乎不可避免。我们的世界如此广袤复杂，永远存在未预见的场景与方法论。

相比之下，能从经验中自主学习的系统则能察觉现实世界的种种特质，这种能力终将占据主导地位。即使当前基于人类模仿的系统表现不俗，但那个起步相似却具备经验学习能力的系统，最终会取代前者。

虽然我起初声明不该对此发表观点（因为这并非我的主攻领域），但事实证明我已形成明确判断：这很可能将成为苦涩教训的新例证。随着思考的深入，我认为这种情况发生的可能性正与日俱增。

AI 界的「路径依赖」

Niamh Gavin：作为领域内的实践者，我完全赞同您的观点，Rich。但外界可能会质疑：为何历史总在重演？为何行业总不自觉地陷入自我设限的循环？这本质上反映了核心矛盾：哪些问题该由模型智能解决，哪些能通过工程手段弥补。优秀实验室总是兼顾研究与工程，但这种模式的弊端在于：当模型遇到瓶颈时，工程师第一反应往往是我能修复，而非退后一步思考系统级重构。

这种修补式迭代会导致系统日益脆弱和过拟合，正如你最初提到的，当市场商业化浪潮席卷而来，我们往往被既定路径绑架，直到某刻集体意识到必须重构新系统 —— 特别是在当前加速演进的环境下，这正是我们陷入的恶性循环。但转机在于：越早触达瓶颈，就越快迫使我们重新构想技术路径。

目前大语言模型领域已显现这种转变：从单纯依赖算力扩展定律、使用脆弱的 Transformer 主干，正逐步转向更注重推理能力的方法链。从最初的思维链推理，到现在更多探索强化学习环境，这种演进正在悄然发生。

Richard Sutton：我们都有创新者的困境。这就是你所说的。他们以一种方式做到了，他们倾向于不想尝试完全不同的东西。

分清模型「现在能做的」和「大家期待它能做的」很重要

Sendhil Mullainathan：我想我在实质问题上几乎完全同意你的观点，Rich，但对于第二点有些不同意见。

我觉得我们需要分清两件事。一是这些模型被认为能做到什么，或者说大家期待它们很快能做到什么，二是这些模型实际上能做的那些了不起的事情。

对我来说，看清这一点很有帮助：人们看到这些行为，然后就开始推断，想象这将会看起来像是智能，或者随你怎么称呼它。

我认为这种推断是误导性的。但对我来说那不是真正的悲剧。真正的悲剧是，它们能做的事情其实很惊人。我们只是需要给它起个不同的名字，叫它别的什么。它有着难以置信的价值，难以置信的用途。这是你一次又一次看到的那种情况 —— 问题不在于缺少什么。就像我们在互联网泡沫中看到的那样。互联网确实具有变革性，这毫无疑问。认为它不具有变革性简直是疯了。

但问题是，当时人们对它的期待 —— 尤其是对某些具体公司的期待 —— 实在是太过头了。我觉得现在的情况也有点像。

所以对我来说，整个公共讨论中最让人分心的部分 —— 我说的不是我们这个圈子，而是外面的大众讨论 —— 是我们一直没有好好聊聊已经发生的这个奇迹。纯粹的模仿竟然能产生这么多非凡的特性，这是怎么做到的？我们到底获得了多少涌现能力？它究竟能做什么？这些都是特别有意思的学术问题。

是的，它不会达到真正的智能。但是 —— 很多了不起的创新都不是「智能」，我们照样找到了很好的用途。我觉得这才是最让我失望的地方。

主持人：说到这里，我要特别表扬一下 Sendhil 自己。经济学界有很多人在研究这个领域，大多数人在论文标题和正文里都用「人工智能」这个词，但 Sendhil 不这样。他马上要发表的论文叫《算法时代的科学》之类的，他用的是「算法」这个词，不是「AI」—— 尽管他说的就是别人口中的 AI。

参考链接：

https://www.youtube.com/watch?v=e-sghqKZ-Mw

https://x.com/karpathy/status/1973435013875314729