为什么AI的IMO金牌含金量不如你想象的那么高

智能情报所 2025-08-08 15:48

GREG BURNHAM

2025 年 8 月 8 日


如今 IMO 已经落幕。谷歌与 OpenAI 均宣布,其各自的实验性大语言模型(简称 LLM)在 6 道赛题中解出 5 道,成绩足以摘金。

但我们究竟从中学到了什么?

尽管这枚金牌引发了热议,但我认为,深入审视后会发现,这一成就几乎无法证明 AI 的能力取得了实质性进步。

这很大程度上是运气使然:AI 解出的 5 道题,其难度并未超越现有系统的能力范围;而唯一未解的那道题,其难度又远非任何系统所能企及

本文将从宏观与微观两个视角论证,为何我们不应过度解读这次 IMO 的结果。

宏观视角:信息量缺失的赛题样本

根本问题在于今年赛题的难度分布极不均衡。

这一点,在美国 IMO 国家队教练 Evan Chen 的 MOHS 难度评分图中一目了然。

资讯配图

通常,IMO 的赛题结构是两道简单题、两道中等题、两道难题。今年的特殊之处在于,它仅有一道难题。

更糟糕的是,这道唯一的难题难度极高,达到了残酷级别。

这意味着,AI 的数学能力被框定在了一个模糊的中等与残酷之间的巨大区间里。

解决这些中低难度题目,仅仅代表了 AI 在解题可靠性上的增量进步,而非涌现出任何新能力。

同理,解不出那道残酷难题,也只能排除 AI 取得跃迁式进步的可能性。我们无法从今年的赛题中判断 AI 是否获得了真正的新能力。

AI 的表现:意料之中,并非突破

如果你之前不了解 AI 已能解决顶尖数学竞赛中的中低难度问题,这次的金牌或许会让你惊讶。

但纵观过去一年的记录,你会发现,AI 的这种表现早已不足为奇。

早在今年五月,谷歌的 Gemini 2.5 Pro Deep Think 模型,就在美国数学奥林匹克竞赛(简称 USAMO)中解决了一道“中等偏难”的题目。

这已经证明,特定类型的中等难度题目,早已是顶尖 AI 的囊中之物。因此,这次解决 IMO 的中低难度题,并无更令人惊叹之处。

事实上,现有的一些公开发布模型,在本次 IMO 上的表现也相当不错。

MathArena 平台的评测显示,在 IMO 之前发布的模型中,Gemini 2.5 Pro 表现最佳,不仅解出了一道中等难度题,还在另外两道题上获得了可观的部分分数。

这进一步压缩了实验性模型展示其进步性的空间。既然它们未能攻克最难的那道题,剩下的胜利也就显得理所当然。

我们甚至无法断定 LLM 已追上 AlphaProof

一个有趣的问题是:LLM 是否追上了上一代 AI 数学领域的王者——谷歌的专用系统 AlphaProof?

AlphaProof 曾在 2024 年的 IMO 中解出了一道公认的难题。

可惜,今年的赛题难度分布再次让我们错失了答案。AI 解出的 5 道题都远比 AlphaProof 攻克的那道题简单,而最难的那道题又远比它更难。

LLM 根本没有机会在同等水平上与前辈一较高下。


微观视角:无需新能力的解题路径

那么,这些题目本身究竟如何?AI 的证明过程是否闪现了智慧的火花?

我曾期望看到一些需要人类所谓创造力概念性思维的题目,但结果令人失望。

已解出的 5 道题,其解法都有一种顺水推舟的风格,并未超出 AI 已有能力的范畴。

而那道真正的难题,则几乎同时要求了 IMO 赛题所能考察的全部顶尖技能。

资讯配图

P1:当空间直觉被代数蛮力取代

有趣的是,对人类最简单的第一题,反而是最能揭示 AI 特征的。

在一个平面上,一个有限点集  中的任意三点不共线。对于  的一个  元子集 (其中 ),我们称一条不过  中任何一点的直线  为  的“晴天线”,如果  的一侧恰好有 2 个来自  的点。证明:存在一个正实数 ,使得对于所有  的任意  元子集  都至少有  条晴天线。

资讯配图

上图展示了 n=4 且有一条晴天线的一种构型。

人类解题的关键洞察在于:当点数大于等于 4 时,总可以找到一条线,它能覆盖点集凸包的一条边,并且移除这条边上的点后,问题可以归约为更简单的情形。

这是一种高度依赖几何直觉的简化。

LLM 显然不具备这种直觉。它们虽然最终证明了这一点,但并非通过一语道破天机的洞察,而是依赖数段复杂的代数演算来迂回达成。

这再次暴露了 LLM 在空间推理上的短板,它们只能用更长的“思考时间”和更繁琐的符号计算来弥补这一缺陷。

P4:当顺水推舟就足以破解

AI 解决的题目中,对人类最难的是哪道?是下面这道函数方程题。

求所有函数 ,使得对于所有正整数  和 ,都有

可惜,这道题的破解路径非常直接,恰好是 LLM 的强项:顺着题设条件,不断代入特殊值,就能获得大量信息,最终通向答案。

一位数学 YouTuber 的评论一针见血:这道题非常直接,你几乎不需要寻找特别的解题动机,因为只要动手去探究,答案就会自然浮现。

实验性 LLM 的证明路径与人类高手别无二致,只是语言风格略显奇特,像是未经润色的思维链原始输出,但逻辑清晰、毫厘不差。

P6:一道真正的鸿沟

最后,那道未解出的难题,确实难得超乎寻常。

在一个平面上有 2025 条直线,其中任意两条不平行,任意三条不共点。这些直线将平面分割成若干个区域。求这些区域中,边数最多的区域可能含有的最少边数是多少?

要解开此题,需要高度的抽象能力、无中生有的创造力,以及层层递进的逻辑深度。这三者,AI 无一具备。

它不仅没能找到非显而易见的正确答案,更遑论证明其最优性。这道题如同一道鸿沟,清晰地标示了当前 AI 的能力边界。


真正的启示:难验证领域的可靠性

那么,这枚金牌是否一文不值?也并非如此。

它至少展示了一项真正的成就:可靠性。在只允许一次提交的情况下,AI 成功输出了五份无懈可击的自然语言证明。

这恰恰触及了一个关键领域:那些无法被自动验证,但人类专家一看便知对错的领域,比如数学证明、法律文书、代码审查等。

IMO 的结果表明,经过充分强化的 LLM,确实有能力在这类领域中,交付逻辑可靠的成果,只要推理的难度不触及天花板。

但若要寻找超越中等难度的、真正标志着能力涌现的推理火花,我们显然需要将目光投向别处。


¹ 关于普遍认知,可参见此处。当然,“简单”是相对的:大多数高中生连一道较简单的 IMO 题目都无法解决。

² 我将主要依赖 MOHS 评级来进行“宏观”视角的分析。这些评级当然是主观的,但 Chen 在奥赛界备受尊敬,这已经是我们能得到的最接近权威专家意见的评估了。

³ USAMO 是一项美国全国性竞赛,其形式与 IMO 相同,难度也相当。

⁴ 请注意,对于这 4 个样本中的每一个,MathArena 都使用了一个 best-of-32 的框架,其中 LLM 在单败淘汰赛中评判自己的解决方案。这相当于 1-2 个数量级的测试时计算量扩展,并且他们根据经验表示,这显著提升了性能。所以,这并不完全是“开箱即用”的性能,但它表明,单纯的测试时扩展就能在很大程度上接近金牌水平。事实上,加州大学洛杉矶分校 (UCLA) 的一位教授声称,他仅通过框架引导,而无需任何额外训练,就从 Gemini 2.5 Pro 中引出了完整的金牌表现。该结果未经预注册或独立验证,但我认为它与其他所有证据指向了同一个方向。

⁵ 这对 AI 公司 Harmonic 来说太糟糕了,他们的模型能像 AlphaProof 一样生成形式化证明,并且也解出了 2025 年 IMO 的 5 道较简单的题目:但他们无法声称解决了任何比 AlphaProof 解决过的更难的、未经污染的 IMO 题目。

⁶ 你或许仅从 MOHS 评级就能推断出这一点:我最喜欢的一道 IMO 题目,AlphaProof 未能解出,所有公开发布的模型也都无法解决,我认为它需要类似创造力的东西,而那道题的 MOHS 评级已经是 35。即便是目前公开发布版本的 Deep Think,在我采样的 6 次中也每次都答错了,尽管这不是在 IMO 上赢得金牌的那个版本。

⁷ OpenAI 的一位研究员声称,他们的模型至少知道自己不知道 P6 的正确答案。这是可信的,因为 LLM 确实是基于证明的竞赛问题解答正确性的不错评判者。

⁸ 我是基于以下事实推断出这一点的:(a) 没有任何 AI 系统在该问题上获得部分分数,以及 (b) MathArena 的评分标准规定,只要找到一个能达到正确最终答案的构造,就能获得 1 分。

原文地址:https://substack.com/inbox/post/170319306

一键三连点赞」「转发」「小心心

欢迎在评论区留下你的想法!


声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI
more
展商直击 | WAIC 2025“智”力全开,南通·紫琅智谷发布AI开放场景清单,赋能AI创新生态!
韩国DeepX携手百度飞桨打造边缘AI新方案,共探技术融合新模式
为什么AI的IMO金牌含金量不如你想象的那么高
解锁 AI 算力未来|首届 Arm Unlocked 2025 上海盛会,定档9月10日,报名通道开启!
OpenAI 发布 GPT-5,ChatGPT 智能跃升至博士级水平
AI需求坚挺!台积电7月营收,增长25.8%
AIGC行业发展趋势(附行业发展历程、重点企业分析、市场竞争格局分析及市场前景预测)智研咨询
Making AI Real丨解锁焊接机器人结构设计优化的「高效秘诀」
单机狂飙4万亿参数,国产AI「四大天王」首次合体!这台超节点鲨疯了
论坛直击 | WAIC 2025人工智能赋能医药健康新范式论坛
Copyright © 2025 成都科技区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号