GPT-5口碑雪崩后,Garry Marcus直言:奥特曼应为GPT-5的灾难引咎辞职

智能情报所 2025-08-10 16:07

编者按:本文作者 Gary Marcus,是纽约大学荣誉教授、认知科学家,更是符号AI领域的权威专家。

我们翻译此文,旨在为中文读者提供一个超越喧嚣的深度视角,帮助大家洞察当前AI发展的真实瓶颈、技术路线的根本缺陷与未来潜能,引发您的独立思考,收获真知灼见。

一次搞砸的新品发布……

作者:GARY MARCUS

日期:2025 年 8 月 10 日


生成式 AI 经历了真正糟糕的一周。

GPT-5 的姗姗来迟和表现平平,甚至都算不上是最糟的部分。

但在我们触及那最糟糕的部分之前,我们先来回顾一下 GPT-5 那场混乱的首次亮相。

这本该是 OpenAI 最终加冕,巩固其绝对统治地位的一周。传闻已久的 GPT-5 终于要来了。

Sam Altman 自信爆棚,在直播前,他甚至发布了一张《星球大战:侠盗一号》的电影截图。

资讯配图
星战截图

人们对此深信不疑,这张图获得了近 600 万次浏览。

这种傲慢在直播开场时仍在继续。永远的表演家奥特曼宣称:

我们坚信,相比以往任何 AI,你们会更爱 GPT-5。它强大、智能、迅捷且富有直觉。

GPT-3 像是在和高中生对话,虽有灵光一闪,但烦恼也不少。

GPT-4o 或许像是在和大学生交流。而 GPT-5,则像是在与一位真正的专家对话——一位随时待命、任何领域的博士级专家,助你实现任何目标。

然而,主流媒体大多没告诉你的是,仅仅几天后,奥特曼的这套说辞就再也无人问津了。

超过3000人对GPT-5的憎恶已到了无以复加的地步,他成功地请愿恢复了旧版模型

在通常力挺 OpenAI 的 Reddit 社区,置顶帖的内容是这样的:

资讯配图
Reddit 帖子截图

正如网友所说,Altman 那条死星推文,现在看来真是打脸。

说回那部《星球大战》电影,不少人开始好奇奥特曼究竟看没看过。给不熟悉的读者提个醒,电影的结局是……反抗军联盟把死星给炸了。

OpenAI 这次,基本上是把自己给炸了,而且是以一种最糟糕的方式。

除了少数几个对任何新模型都赞不绝口的网红,外界的主流反应是:巨大的失望

如果一个系统能安然度过一周,不被社区揪出一大堆荒谬的错误和幻觉,那我才会真心佩服。

然而现实是,短短几小时内,人们就在网上贴出了各种老生常谈的愚蠢错误。

Hacker News 上的一个帖子毫不留情地剖析了那个基于直觉、而非严谨逻辑的伯努利效应现场演示。

多个帖子指出其在一些基准测试中表现不佳,而且问题不只出在我几天前即时评论里提到的 ARC-AGI-2 测试上。

还有人发现,新的「自动路由机制」简直一团乱麻。

这一切都似曾相识:宏大的承诺,愚蠢的错误

但这一次,人们的反应截然不同。因为期望值被炒上了天,海量用户都认为 GPT-5 是一次彻头彻尾的滑铁卢。

一夜之间,OpenAI 在业界的信誉一落千丈。

在一项关于“八月底哪家公司将拥有最佳 AI 模型”的 Polymarket 预测市场上,OpenAI 的胜率在一小时内从 75% 狂泻至 14%。

Andres Franco 的评论很典型:“GPT-5 太让人失望了,远超我的预期。”

一位曾是 OpenAI 拥趸的读者告诉我:“GPT-4o 是个好到离谱的模型,相比之下,GPT-5 简直是一场彻头彻尾的灾难,尤其是考虑到发布前那铺天盖地的炒作。”

一位 NBA 主席私信我:“在我最喜欢用来为难大语言模型的两个问题上,GPT-5 还是挂了。”

许多人似乎真的以为 GPT-5 会是通用人工智能。其实,你根本不需要几十年的专业背景就能看出,它离那个目标还差得远。

就连我的“黑粉俱乐部”这次也被迫承认了我的观点。“今天最悲哀的事,莫过于发现 @garymarcus 是对的”这类推文甚至成了热门。

自由记者 Bryan McMahon 则用更积极的口吻写道:“我们都目睹了 GPT-5 的发布会如何惨淡收场——事实上,惨到许多人将昨天称为‘Gary Marcus 日’,因为您关于大语言模型结构性缺陷的一贯批评,被再次验证了。”

的确,正如我两周前在此预测的一样,我在过去四分之一个世纪里反复指出的那些根本性问题,依然阴魂不散。

比如,我在六月底对国际象棋与世界模型的批判。我的权威消息源 Mathieu Acher 很快证实,GPT-5 在遵守规则上依旧非常吃力。

一位塔夫茨大学的教授发给我另一个例子,在讨论一个简单的国际象棋残局时,GPT-5 完全逻辑错乱。

再看看它的视觉理解能力:

资讯配图
视觉理解错误示例

Ernest Davis 和我去年十二月讨论的生成图像中「部分与整体」的挑战,也丝毫没有改善。

有人辩解说,这是因为 GPT-5 仍在使用旧的图像生成模型。但考虑到这个新模型本应是完全多模态且堪比通用人工智能的,这种借口实在苍白无力。

资讯配图
自行车图像生成错误示例

我敢肯定,绝大多数机械工程博士都能画得比这好。任何一个自行车修理工也行,甚至你家的小弟小妹都可能比它强。

Émile Torres 汇总了更多刚被发现的低级错误。Cameron Williams 则在基础的阅读理解和摘要能力上都发现了问题。

平心而论,GPT-5 并非一个一无是处的模型。我玩了大约一个小时,它确实答对了我最初的几个问题。

例如,早期版本中数不对单词里字母个数的问题,这次似乎修正了。但只要我一尝试图像功能,它就立刻原形毕露。

现实是,GPT-5 与它的前辈们并无本质区别。这才是问题的核心。

GPT-4 曾被视为对 GPT-3 的颠覆性突破;GPT-3 对 GPT-2 也是如此。但 GPT-5 相比上个月的热门模型 Grok 4,几乎没有优势,在某些指标上甚至更差

人们已经习惯了期待奇迹,但 GPT-5 只是又一次微小的增量式更新。而且,正如一张梗图所讽刺的,它给人的感觉还很仓促。

如果说我有什么预测错得最离谱,那就是我曾以为,在赌注如此之高的情况下,OpenAI 会把 GPT-5 这个名字留给一个真正石破天惊的产品。

我真没想到,他们会把这个金字招牌浪费在如此平庸的东西上。我错了。

一两年来,我一直在想,如果 GPT-5 令人失望,OpenAI 可能会遭受重创。现在,我们或许很快就能见证这一幕。

在一个理性的世界里,它的估值肯定会大幅缩水。

  • 他们已不再有任何明显的技术壁垒。
  • GPT-5 的领先优势恐怕连几个月都维持不了。
  • 许多核心人才已经流失,并另起炉灶,成了竞争对手。
  • 马斯克、Anthropic、谷歌等追兵正在步步紧逼。
  • 他们与微软的关系也出现了裂痕。
  • OpenAI 至今未能盈利,反而被迫降价求存。
  • 人们正逐渐清醒:大语言模型并非通往 AGI 的捷径。
  • 公众对这家公司及其 CEO 的怀疑与日俱增。

OpenAI 剩下的,是品牌知名度和还不错的用户体验。这足以支撑 3000 到 5000 亿美元的估值吗?很难说。

按理说,Altman 的个人信誉此刻应该已彻底破产。

就是这个人,在 2023 年 9 月还开玩笑说“通用人工智能已在内部实现”,今年 1 月又在博客里宣称“我们已有信心构建出传统意义上的通用人工智能”。

就在几天前,他还告诉我们,与 GPT-5 对话“就像与真正的博士级专家交流”。

事后看来,这全都是彻头彻尾的胡扯。

最可悲的是什么?这一切都是奥特曼自己造成的。如果他当初没有不停地画登月那样的大饼,或许大家对于又一个增量更新,也就欣然接受了。

他,甚至可能已经不再是适合 OpenAI 的 CEO 了。

资讯配图
CEO 表现推文

好吧,这对 OpenAI 显然是沉重一击。但对整个生成式 AI 领域呢?其他系统的表现也好不到哪去。

心理学家 Jonathan Shedler 在一篇檄文中对 Grok 的批判可谓体无完肤,他如此评论 Grok 对自己一篇论文的总结:

我就是 @grok 所述论文的作者。这是心理治疗领域被阅读和引用最多的文献之一,是全球研究生项目的必读材料。

Grok 的总结,每一个字都是错的。

我的论文证明了心理动力学疗法和认知行为疗法同样有效,甚至更优。Grok 却说得正好相反。

论文标题就叫《心理动力学心理治疗的功效》。

论文关键研究中,该疗法的效应量是 0.97,Grok 却说成 0.33。数字 0.33 在我的论文里根本就没出现过。

AI 似乎什么都懂——直到它谈论到你真正懂的领域。

一个连既有科学都无法准确复述的 AI,又怎能指望它去开创新的科学?

我让大家久等了。在文章开头,我曾暗示有更糟的消息。

真正的重磅炸弹,是亚利桑那州立大学的一项最新研究。

它彻底证实了我近三十年来一直强调的观点,也是苹果公司最近指出的:大语言模型的核心软肋,在于其无法进行广泛的泛化

物理学家 Steve Hsu 在 X 上对此做了精彩总结,它完美印证了那篇被不公抹黑却意义重大的苹果推理论文,以及我过去三十年里一直在推动的关于「分布偏移」的核心理念:

资讯配图
Steve Hsu 的推文截图

当我读到论文摘要中那句“思维链推理是一种脆弱的海市蜃楼,一旦超出训练分布就会烟消云散”,一种强烈的宿命感涌上心头。

早在 1998 年,我就写道:“普适规律在语言和推理中无处不在”,并通过实验证明,那个时代的神经网络无法可靠地“将普适规律泛化到训练样本之外”。

ASU 的团队证明了,即便是在今天最先进的模型上,这个魔咒依然成立。

即便用上了 1998 年以来所有的技术和技巧,我当年指出的那个“阿喀琉斯之踵”依然是它的致命弱点。这令人震惊,连我自己都未曾料到。

至关重要的是,这种泛化能力的缺失,从根本上解释了为什么所有那些构建“GPT-5 级别模型”的努力都屡屡碰壁。

这不是偶然。这种失败,是根本性的。

过去几年,我们被持续不断地灌输了太多鬼话。

  • 号称无所不能的通用智能体,结果却烂到没人用。
  • 吹嘘成神一般的模型,结果只是微不足道的进步。
  • “我们已掌握通往通用人工智能的方法”之类的豪言壮语,从未兑现。
  • 改变世界的科学突破的承诺,从未实现。
  • 仍在全球少数几个城市测试的无人驾驶汽车。
  • 对国会做出的“用 AI 打击假新闻”的承诺,转眼成空。
  • 关于时间线的幻想、关于内部秘密的揣测,以及永无休止的网红炒作。
  • 精心挑选的案例、针对性优化的评测,甚至还有凭感觉画出的图表,而系统原理和训练数据却讳莫如深。开放的公共科学精神,早已被抛在脑后。

我热爱 AI,或者说,我热爱它未来可能成为的那种美好愿景。

但我痛恨这些鬼话。

而现在,变化正在发生:越来越多的人也开始厌倦这一切。

正如 Zeynep Tufekci 所说,“通用人工智能”这个词,已经沦为“一个主要用来蒙蔽投资者和公众的障眼法”。

从某种意义上说,我在这里的工作——即向公众解释「纯粹扩大规模」这一技术路线的局限性——已经完成了。

这正是我在三年半前创办这个专栏的初衷。任何一个有理智的人,都不应再相信单靠堆砌算力和数据就能实现通用人工智能。

我为之奋斗了 27 年,呼吁整个领域正视「分布偏移」这一核心难题的使命,或许也可以告一段落了。

连一些曾经狂热的科技信徒们,也开始从“2027 年实现通用人工智能”的迷梦中醒来,意识到那不过是市场营销的口号。

GPT-5 或许在某些数据上略有提升,成本也可能更低,但它在所有定性维度上,都重复着前辈们的失败——无论是国际象棋、逻辑推理还是视觉理解,甚至有时在简单的计数和数学上也是如此。

幻觉问题依旧顽固。无数次的尝试,从 Grok 到 Claude 再到 Gemini,无一例外都撞上了同一堵墙。分布偏移的魔咒,从未被打破。

这,就是触及天花板的真切写照。这正是我在 2022 年那篇最富争议也最具预见性的论文中描述的困境:在某些维度上看似进步,在另一些关键维度上却原地踏步。

归根结底,认为单靠扩大规模就能实现通用人工智能,始终只是一个假说。

历史上,没有任何一个假说,曾得到过如此多的宽容和如此巨量的资金。在向这个方向投入了数万亿美元之后,我们显然是时候该换条路了。

GPT-5 令人失望的表现,让这一点变得再清晰不过。

纯粹扩大规模,绝非通往通用人工智能的康庄大道。 事实证明,作为大语言模型核心、并在那篇著名的 Transformer 论文中被奉为圭臬的“注意力机制”,并非“你所需要的一切”。

我只想说,请给带有明确世界模型的神经符号 AI一个机会。

只有当我们的系统能够基于持久、稳定的内部世界表征(包括但不限于抽象符号)进行推理时,我们才算真正走上了通往通用人工智能的正确道路。

资讯配图

原文地址:https://substack.com/inbox/post/170534403


一键三连点赞」「转发」「小心心

欢迎在评论区留下你的想法!


声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AR
more
【央视AI盛典】姚期智、Gillian Hadfield 、Stuart Russell、周伯文:解码时刻-AI人才培养
Dario Amodei:账面亏损?大模型照样生钱!
英飞凌25亿美元收购Marvell汽车以太网业务落地
为了搞芯片,Arm挖了一个老法师
【精选报告】GPT-5SystemCard深度解读:从模型架构到安全防护的全面进化(附PDF下载)
【Open Car】辣鸡的产品,卖得的确是辣鸡的价格
Genspark把程序员干懵了:不写代码10分钟抬上一个系统,L4级AI Agent真会抢饭碗!
NIPS 2025 MARS 多智能体具身智能挑战赛正式启动!
【投融资】红杉、KleinerPerkins押注数学AI革命:HarmonicB轮融资1亿美金,打造数学超智能
资讯 | 东部战区总医院临床进展、中南医院脑机接口技术介绍、高校开设脑机接口相关本科专业、爱朋医疗/ONWARD新进展
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号