LLM是死路一条?但Sutton可能也高估了RL作为终极通用智能框架的完备性

大模型之心Tech 2025-10-17 11:00

作者 | gwave@知乎 编辑 | 大模型之心Tech

原文链接:https://www.zhihu.com/question/1959222181658628381/answer/1959242840891687621

点击下方卡片,关注“大模型之心Tech”公众号


本文只做学术分享,如有侵权,联系删文,也欢迎添加小助理微信AIDriver004做进一步咨询

谢邀。我大体上 (>90%)同意 Rich Sutton 的观点 —— 单靠 LLM 是条「死胡同」。

原因并不是它没用,而是 它太强了,以至于遮蔽了我们对智能本质的继续探索。

LLM是死路一条?但Sutton可能也高估了RL作为终极通用智能框架的完备性图1

一、LLM 是「系统1」,不是「系统2」

LLM 的强大在于:它几乎整合了人类全部显性知识,是一个巨大的「经验压缩体」。

但它的缺陷也同样明显:推理不可靠、无法形成稳定的世界模型。

用丹尼尔·卡尼曼的框架来说,LLM 更像是人类的「系统1」——

快速、直觉、模式识别驱动;

而不是「系统2」——

缓慢、可验证、能进行抽象与逻辑推演。

这就是为什么它写诗、写代码、聊天都能天衣无缝,但在数理逻辑、长期规划、反事实推理上经常崩溃。

(自o1以来,LLM在系统2方面做了很多努力,可参考回答,实现 LLM 复杂推理(Reasoning)目前有哪些主要方法?, 但离做题家alphaEvolve的水平差距大概是小学生和博士之间的差距)

LLM是死路一条?但Sutton可能也高估了RL作为终极通用智能框架的完备性图2

二、智能不是堆参数,而是结构的出现

AI 不一定要模仿人脑,就像 固定翼飞机不学鸟的翅膀,汽车不学动物的多足行走。

但所有高效系统都必须遵守某些结构性原理——

信息的分层、反馈、记忆、预测、以及能动性(agency)。

目前的 LLM 只覆盖了其中的「记忆」与「模式匹配」部分,严格来说,LLM 并不具备“长期记忆”,它更多体现的是“参数化记忆”(parametric memory)—— 即把大量知识编码在权重中(压缩即智能)。它在「模式匹配」上极强,但在 反馈、因果、主动探索、目标形成等动态过程上都非常薄弱。

这意味着它缺少「心智动力系统」,只能被动地产生答案。

LLM是死路一条?但Sutton可能也高估了RL作为终极通用智能框架的完备性图3

三、AI的未来:从堆料到架构共生

在通往更高级智能的道路上,LLM 是必要条件,但不是充分条件。

个人认为至少还需要几个方向的融合:

  1. 神经符号混合(Neuro-Symbolic) —— 让语言模型能进行形式化推理与可验证思考。
  2. 因果模型与世界模型 —— 让AI理解“为什么”而不是仅仅“是什么”。(听说G家已经融合world model,我用的少,感受不明显)
  3. 强化学习与主动性(RL + Planning) —— 从被动回答到主动探索, Learning from experience。
  4. 贝叶斯与不确定性建模 —— 让AI知道「自己不知道」。
  5. 进化与自组织/复杂科学 算法 —— 让AI结构可以「生长」而不是「训练出来」。
  6. 信息论的统摄视角—— 从信息论的角度看,LLM 的训练本质上是一个熵减、知识凝聚的过程,通过压缩无序文本而形成结构化知识。而推理过程则是一种受控的熵增,在有限的知识能量中释放创造力——就像一场“可控核聚变”。

这些东西的融合,可能可以对应人脑的前额叶功能—— 目标生成、冲突控制、长期规划、与抽象能力

LLM是死路一条?但Sutton可能也高估了RL作为终极通用智能框架的完备性图4

四、结语:Sutton 是在提醒我们

Sutton 不是否定 LLM,而是提醒我们不要被「预测文本」的幻象困住。

真正的智能,不是预测下一个词(其实这也很牛,要用到全人类的智慧),而是 在未知世界中生成新的结构与意义。

AI 的未来,不是“更大的模型”,而是 “更深的结构耦合”:

符号与神经、因果与概率、推理与感知、知识与行动的统一。

假设AGI按着动物大脑的发展顺序来吧:

把RL比作爬行脑(多巴胺), LLM 比作哺乳脑(系统1,直觉&快速),那么未来的 AGI(系统2是重要组成), 需要在它之上长出一个「前额叶」(逻辑、推理等)。

那一刻,AI 才会真正开始「思考」。


P.S. 如果问我对 Sutton 的观点还有 10% 的不同意是什么?

我认为问题不在于 Sutton 对 LLM的评价(LeCun有类似说法很久了),而是他也高估了 RL作为终极通用智能框架的完备性(当然,这并不影响我对 Sutton 的敬意——他依然是 AI 领域最具思辨深度的学者之一)。

RL 的确是一个能自我改进的通用学习框架,但它的核心信号——reward(奖励)只是一个标量。

从信息论的角度来看,这意味着它所承载的信息量极其有限,往往还非常稀疏。

一个单一的标量,很难有效地指导复杂系统在高维空间中学习丰富的结构和层次。

小马拉大车,信息带宽太窄,很费劲

各种reward reshaping, LLM都来reshaping了

从生物学角度看,RL 更像是多巴胺系统的本能反应:你做对了,大脑给你一点“糖”;

但它远不是前额叶那种能抽象、规划、反思、自我约束的深层思考机制。

换句话说,RL 很有用——它是智能的“动力系统”,但它并不是智能的“认知系统”。

如果说 LLM 代表了感知与语言的下意识层,RL 代表了行为与奖惩的反射层,

那么未来的 AGI 还需要在这两者之上——长出“前额叶”式的思考层,

才能真正拥有持续学习、自我建模与反思能力

从爬行动物,到哺乳动物,最后到人

智能的演化历程,本质上就是这一层“前额叶”的生长过程。

当然,AI 不一定要完全模仿大脑,(前面说了)

但大脑依然有它可取的结构原理——启发一下,还是够格的。

毕竟,飞机也是有翅膀的,虽然不会扇动;

汽车也有四个落地支撑的结构,虽然不是脚。

本文的所有观点都在我之前的文章和回答中提出过,本文只是把思路重新整理了一下。希望看更详细的分析或延伸话题,欢迎去主页翻翻,会有不少关联内容。

部分相关文献和链接:

  • https://arxiv.org/pdf/2502.03671 Advancing Reasoning in Large Language Models: Promising Methods and Approaches
  • What the F*ck Is Artificial General Intelligence? arXiv:2503.23923
  • What is Meant by AGI? https://arxiv.org/pdf/2404.1073
  • 有哪些 AGI 基础理论?
  • 强化学习的10层境界:从巴甫洛夫的狗到贝叶斯大脑(上)

    • 从信息论的角度看LLM:一座人造逆熵聚变反应堆,从信息熵坍缩到受控释放的全过程
  • 数学物理随笔·追随彭罗斯

大模型之心Tech知识星球交流社区

我们创建了一个全新的学习社区 —— “大模型之心Tech”知识星球,希望能够帮你把复杂的东西拆开,揉碎,整合,帮你快速打通从0到1的技术路径。 

星球内容包含:每日大模型相关论文/技术报告更新、分类汇总(开源repo、大模型预训练后训练知识蒸馏量化推理模型MoE强化学习RAG提示工程等多个版块)、科研/办公助手AI创作工具/产品测评、升学&求职&岗位推荐,等等。

星球成员平均每天花费不到0.3元,加入后3天内不满意可随时退款,欢迎扫码加入一起学习一起卷!

LLM是死路一条?但Sutton可能也高估了RL作为终极通用智能框架的完备性图5

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
more
合肥政府兑现“免申即享”承诺,这家持有OC证书的eVTOL运营公司将获1500万元奖补!
机翼集成式eVTOL飞行器动力电池包方案
北航教授李新军:以无人机和eVTOL为主的低空经济面临“两痛点”,行业须形成“五共识”
重磅升级,洞见未来| 2026第二届中国eVTOL创新发展大会
峰飞航空发布eVTOL零碳水上机场
eVTOL的四大技术支柱与无人驾驶eVTOL的考验
时的科技E20 eVTOL完成创始人同乘飞行试验!
全球首架全尺寸倾转涵道翼eVTOL亮相进博会,天翎科发布L600“空中专车”
eVTOL电池系统动态跌落测试样品与测试设置详解
赛峰|eVTOL多电机驱动装置冷却系统的技术突破与解决方案
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号