LLM是死路一条？但Sutton可能也高估了RL作为终极通用智能框架的完备性

作者 | gwave@知乎编辑 | 大模型之心Tech
原文链接：https://www.zhihu.com/question/1959222181658628381/answer/1959242840891687621

点击下方卡片，关注“大模型之心Tech”公众号

本文只做学术分享，如有侵权，联系删文，也欢迎添加小助理微信AIDriver004做进一步咨询

谢邀。我大体上（>90%）同意 Rich Sutton 的观点 —— 单靠 LLM 是条「死胡同」。

原因并不是它没用，而是 它太强了，以至于遮蔽了我们对智能本质的继续探索。

LLM是死路一条？但Sutton可能也高估了RL作为终极通用智能框架的完备性图1

一、LLM 是「系统1」，不是「系统2」

LLM 的强大在于：它几乎整合了人类全部显性知识，是一个巨大的「经验压缩体」。

但它的缺陷也同样明显：推理不可靠、无法形成稳定的世界模型。

用丹尼尔·卡尼曼的框架来说，LLM 更像是人类的「系统1」——

快速、直觉、模式识别驱动；

而不是「系统2」——

缓慢、可验证、能进行抽象与逻辑推演。

这就是为什么它写诗、写代码、聊天都能天衣无缝，但在数理逻辑、长期规划、反事实推理上经常崩溃。

（自o1以来，LLM在系统2方面做了很多努力，可参考回答，实现 LLM 复杂推理（Reasoning）目前有哪些主要方法？，但离做题家alphaEvolve的水平差距大概是小学生和博士之间的差距）

LLM是死路一条？但Sutton可能也高估了RL作为终极通用智能框架的完备性图2

二、智能不是堆参数，而是结构的出现

AI 不一定要模仿人脑，就像 固定翼飞机不学鸟的翅膀，汽车不学动物的多足行走。

但所有高效系统都必须遵守某些结构性原理——

信息的分层、反馈、记忆、预测、以及能动性（agency）。

目前的 LLM 只覆盖了其中的「记忆」与「模式匹配」部分，严格来说，LLM 并不具备“长期记忆”，它更多体现的是“参数化记忆”（parametric memory）—— 即把大量知识编码在权重中（压缩即智能）。它在「模式匹配」上极强，但在反馈、因果、主动探索、目标形成等动态过程上都非常薄弱。

这意味着它缺少「心智动力系统」，只能被动地产生答案。

LLM是死路一条？但Sutton可能也高估了RL作为终极通用智能框架的完备性图3

三、AI的未来：从堆料到架构共生

在通往更高级智能的道路上，LLM 是必要条件，但不是充分条件。

个人认为至少还需要几个方向的融合：

神经符号混合（Neuro-Symbolic） —— 让语言模型能进行形式化推理与可验证思考。
因果模型与世界模型 —— 让AI理解“为什么”而不是仅仅“是什么”。（听说G家已经融合world model，我用的少，感受不明显）
强化学习与主动性（RL + Planning） —— 从被动回答到主动探索， Learning from experience。
贝叶斯与不确定性建模 —— 让AI知道「自己不知道」。
进化与自组织/复杂科学 算法 —— 让AI结构可以「生长」而不是「训练出来」。
信息论的统摄视角—— 从信息论的角度看，LLM 的训练本质上是一个熵减、知识凝聚的过程，通过压缩无序文本而形成结构化知识。而推理过程则是一种受控的熵增，在有限的知识能量中释放创造力——就像一场“可控核聚变”。

这些东西的融合，可能可以对应人脑的前额叶功能—— 目标生成、冲突控制、长期规划、与抽象能力

LLM是死路一条？但Sutton可能也高估了RL作为终极通用智能框架的完备性图4

四、结语：Sutton 是在提醒我们

Sutton 不是否定 LLM，而是提醒我们不要被「预测文本」的幻象困住。

真正的智能，不是预测下一个词（其实这也很牛，要用到全人类的智慧），而是 在未知世界中生成新的结构与意义。

AI 的未来，不是“更大的模型”，而是 “更深的结构耦合”：

符号与神经、因果与概率、推理与感知、知识与行动的统一。

假设AGI按着动物大脑的发展顺序来吧：

把RL比作爬行脑（多巴胺）， LLM 比作哺乳脑（系统1，直觉&快速），那么未来的 AGI（系统2是重要组成），需要在它之上长出一个「前额叶」（逻辑、推理等）。

那一刻，AI 才会真正开始「思考」。

P.S. 如果问我对 Sutton 的观点还有 10% 的不同意是什么？

我认为问题不在于 Sutton 对 LLM的评价（LeCun有类似说法很久了），而是他也高估了 RL作为终极通用智能框架的完备性（当然，这并不影响我对 Sutton 的敬意——他依然是 AI 领域最具思辨深度的学者之一）。

RL 的确是一个能自我改进的通用学习框架，但它的核心信号——reward（奖励）只是一个标量。

从信息论的角度来看，这意味着它所承载的信息量极其有限，往往还非常稀疏。

一个单一的标量，很难有效地指导复杂系统在高维空间中学习丰富的结构和层次。

小马拉大车，信息带宽太窄，很费劲

各种reward reshaping， LLM都来reshaping了

从生物学角度看，RL 更像是多巴胺系统的本能反应：你做对了，大脑给你一点“糖”；

但它远不是前额叶那种能抽象、规划、反思、自我约束的深层思考机制。

换句话说，RL 很有用——它是智能的“动力系统”，但它并不是智能的“认知系统”。

如果说 LLM 代表了感知与语言的下意识层，RL 代表了行为与奖惩的反射层，

那么未来的 AGI 还需要在这两者之上——长出“前额叶”式的思考层，

才能真正拥有持续学习、自我建模与反思能力

从爬行动物，到哺乳动物，最后到人

智能的演化历程，本质上就是这一层“前额叶”的生长过程。

当然，AI 不一定要完全模仿大脑，（前面说了）

但大脑依然有它可取的结构原理——启发一下，还是够格的。

毕竟，飞机也是有翅膀的，虽然不会扇动；

汽车也有四个落地支撑的结构，虽然不是脚。

本文的所有观点都在我之前的文章和回答中提出过，本文只是把思路重新整理了一下。希望看更详细的分析或延伸话题，欢迎去主页翻翻，会有不少关联内容。

部分相关文献和链接：

https://arxiv.org/pdf/2502.03671 Advancing Reasoning in Large Language Models: Promising Methods and Approaches
What the F*ck Is Artificial General Intelligence? arXiv:2503.23923
What is Meant by AGI? https://arxiv.org/pdf/2404.1073
有哪些 AGI 基础理论？
强化学习的10层境界：从巴甫洛夫的狗到贝叶斯大脑（上）

从信息论的角度看LLM：一座人造逆熵聚变反应堆，从信息熵坍缩到受控释放的全过程

数学物理随笔·追随彭罗斯

大模型之心Tech知识星球交流社区

我们创建了一个全新的学习社区 —— “大模型之心Tech”知识星球，希望能够帮你把复杂的东西拆开，揉碎，整合，帮你快速打通从0到1的技术路径。

星球内容包含：每日大模型相关论文/技术报告更新、分类汇总（开源repo、大模型预训练、后训练、知识蒸馏、量化、推理模型、MoE、强化学习、RAG、提示工程等多个版块）、科研/办公助手、AI创作工具/产品测评、升学&求职&岗位推荐，等等。

星球成员平均每天花费不到0.3元，加入后3天内不满意可随时退款，欢迎扫码加入一起学习一起卷！