GREG BURNHAM
2025 年 8 月 8 日
如今 IMO 已经落幕。谷歌与 OpenAI 均宣布,其各自的实验性大语言模型(简称 LLM)在 6 道赛题中解出 5 道,成绩足以摘金。
但我们究竟从中学到了什么?
尽管这枚金牌引发了热议,但我认为,深入审视后会发现,这一成就几乎无法证明 AI 的能力取得了实质性进步。
这很大程度上是运气使然:AI 解出的 5 道题,其难度并未超越现有系统的能力范围;而唯一未解的那道题,其难度又远非任何系统所能企及。
本文将从宏观与微观两个视角论证,为何我们不应过度解读这次 IMO 的结果。
宏观视角:信息量缺失的赛题样本
根本问题在于今年赛题的难度分布极不均衡。
这一点,在美国 IMO 国家队教练 Evan Chen 的 MOHS 难度评分图中一目了然。
通常,IMO 的赛题结构是两道简单题、两道中等题、两道难题。今年的特殊之处在于,它仅有一道难题。
更糟糕的是,这道唯一的难题难度极高,达到了残酷级别。
这意味着,AI 的数学能力被框定在了一个模糊的中等与残酷之间的巨大区间里。
解决这些中低难度题目,仅仅代表了 AI 在解题可靠性上的增量进步,而非涌现出任何新能力。
同理,解不出那道残酷难题,也只能排除 AI 取得跃迁式进步的可能性。我们无法从今年的赛题中判断 AI 是否获得了真正的新能力。
AI 的表现:意料之中,并非突破
如果你之前不了解 AI 已能解决顶尖数学竞赛中的中低难度问题,这次的金牌或许会让你惊讶。
但纵观过去一年的记录,你会发现,AI 的这种表现早已不足为奇。
早在今年五月,谷歌的 Gemini 2.5 Pro Deep Think 模型,就在美国数学奥林匹克竞赛(简称 USAMO)中解决了一道“中等偏难”的题目。
这已经证明,特定类型的中等难度题目,早已是顶尖 AI 的囊中之物。因此,这次解决 IMO 的中低难度题,并无更令人惊叹之处。
事实上,现有的一些公开发布模型,在本次 IMO 上的表现也相当不错。
MathArena 平台的评测显示,在 IMO 之前发布的模型中,Gemini 2.5 Pro 表现最佳,不仅解出了一道中等难度题,还在另外两道题上获得了可观的部分分数。
这进一步压缩了实验性模型展示其进步性的空间。既然它们未能攻克最难的那道题,剩下的胜利也就显得理所当然。
我们甚至无法断定 LLM 已追上 AlphaProof
一个有趣的问题是:LLM 是否追上了上一代 AI 数学领域的王者——谷歌的专用系统 AlphaProof?
AlphaProof 曾在 2024 年的 IMO 中解出了一道公认的难题。
可惜,今年的赛题难度分布再次让我们错失了答案。AI 解出的 5 道题都远比 AlphaProof 攻克的那道题简单,而最难的那道题又远比它更难。
LLM 根本没有机会在同等水平上与前辈一较高下。
微观视角:无需新能力的解题路径
那么,这些题目本身究竟如何?AI 的证明过程是否闪现了智慧的火花?
我曾期望看到一些需要人类所谓创造力或概念性思维的题目,但结果令人失望。
已解出的 5 道题,其解法都有一种顺水推舟的风格,并未超出 AI 已有能力的范畴。
而那道真正的难题,则几乎同时要求了 IMO 赛题所能考察的全部顶尖技能。
P1:当空间直觉被代数蛮力取代
有趣的是,对人类最简单的第一题,反而是最能揭示 AI 特征的。
“在一个平面上,一个有限点集 中的任意三点不共线。对于 的一个 元子集 (其中 ),我们称一条不过 中任何一点的直线 为 的“晴天线”,如果 的一侧恰好有 2 个来自 的点。证明:存在一个正实数 ,使得对于所有 , 的任意 元子集 都至少有 条晴天线。
上图展示了 n=4 且有一条晴天线的一种构型。
人类解题的关键洞察在于:当点数大于等于 4 时,总可以找到一条线,它能覆盖点集凸包的一条边,并且移除这条边上的点后,问题可以归约为更简单的情形。
这是一种高度依赖几何直觉的简化。
LLM 显然不具备这种直觉。它们虽然最终证明了这一点,但并非通过一语道破天机的洞察,而是依赖数段复杂的代数演算来迂回达成。
这再次暴露了 LLM 在空间推理上的短板,它们只能用更长的“思考时间”和更繁琐的符号计算来弥补这一缺陷。
P4:当顺水推舟就足以破解
AI 解决的题目中,对人类最难的是哪道?是下面这道函数方程题。
“求所有函数 ,使得对于所有正整数 和 ,都有
整 除
可惜,这道题的破解路径非常直接,恰好是 LLM 的强项:顺着题设条件,不断代入特殊值,就能获得大量信息,最终通向答案。
一位数学 YouTuber 的评论一针见血:这道题非常直接,你几乎不需要寻找特别的解题动机,因为只要动手去探究,答案就会自然浮现。
实验性 LLM 的证明路径与人类高手别无二致,只是语言风格略显奇特,像是未经润色的思维链原始输出,但逻辑清晰、毫厘不差。
P6:一道真正的鸿沟
最后,那道未解出的难题,确实难得超乎寻常。
“在一个平面上有 2025 条直线,其中任意两条不平行,任意三条不共点。这些直线将平面分割成若干个区域。求这些区域中,边数最多的区域可能含有的最少边数是多少?
要解开此题,需要高度的抽象能力、无中生有的创造力,以及层层递进的逻辑深度。这三者,AI 无一具备。
它不仅没能找到非显而易见的正确答案,更遑论证明其最优性。这道题如同一道鸿沟,清晰地标示了当前 AI 的能力边界。
真正的启示:难验证领域的可靠性
那么,这枚金牌是否一文不值?也并非如此。
它至少展示了一项真正的成就:可靠性。在只允许一次提交的情况下,AI 成功输出了五份无懈可击的自然语言证明。
这恰恰触及了一个关键领域:那些无法被自动验证,但人类专家一看便知对错的领域,比如数学证明、法律文书、代码审查等。
IMO 的结果表明,经过充分强化的 LLM,确实有能力在这类领域中,交付逻辑可靠的成果,只要推理的难度不触及天花板。
但若要寻找超越中等难度的、真正标志着能力涌现的推理火花,我们显然需要将目光投向别处。
¹ 关于普遍认知,可参见此处。当然,“简单”是相对的:大多数高中生连一道较简单的 IMO 题目都无法解决。
² 我将主要依赖 MOHS 评级来进行“宏观”视角的分析。这些评级当然是主观的,但 Chen 在奥赛界备受尊敬,这已经是我们能得到的最接近权威专家意见的评估了。
³ USAMO 是一项美国全国性竞赛,其形式与 IMO 相同,难度也相当。
⁴ 请注意,对于这 4 个样本中的每一个,MathArena 都使用了一个 best-of-32
的框架,其中 LLM 在单败淘汰赛中评判自己的解决方案。这相当于 1-2 个数量级的测试时计算量扩展,并且他们根据经验表示,这显著提升了性能。所以,这并不完全是“开箱即用”的性能,但它表明,单纯的测试时扩展就能在很大程度上接近金牌水平。事实上,加州大学洛杉矶分校 (UCLA) 的一位教授声称,他仅通过框架引导,而无需任何额外训练,就从 Gemini 2.5 Pro 中引出了完整的金牌表现。该结果未经预注册或独立验证,但我认为它与其他所有证据指向了同一个方向。
⁵ 这对 AI 公司 Harmonic 来说太糟糕了,他们的模型能像 AlphaProof 一样生成形式化证明,并且也解出了 2025 年 IMO 的 5 道较简单的题目:但他们无法声称解决了任何比 AlphaProof 解决过的更难的、未经污染的 IMO 题目。
⁶ 你或许仅从 MOHS 评级就能推断出这一点:我最喜欢的一道 IMO 题目,AlphaProof 未能解出,所有公开发布的模型也都无法解决,我认为它需要类似创造力的东西,而那道题的 MOHS 评级已经是 35。即便是目前公开发布版本的 Deep Think,在我采样的 6 次中也每次都答错了,尽管这不是在 IMO 上赢得金牌的那个版本。
⁷ OpenAI 的一位研究员声称,他们的模型至少知道自己不知道 P6
的正确答案。这是可信的,因为 LLM 确实是基于证明的竞赛问题解答正确性的不错评判者。
⁸ 我是基于以下事实推断出这一点的:(a) 没有任何 AI 系统在该问题上获得部分分数,以及 (b) MathArena 的评分标准规定,只要找到一个能达到正确最终答案的构造,就能获得 1 分。
原文地址:https://substack.com/inbox/post/170319306
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!