为什么AI的IMO金牌含金量不如你想象的那么高

GREG BURNHAM

2025 年 8 月 8 日

如今 IMO 已经落幕。谷歌与 OpenAI 均宣布，其各自的实验性大语言模型（简称 LLM）在 6 道赛题中解出 5 道，成绩足以摘金。

但我们究竟从中学到了什么？

尽管这枚金牌引发了热议，但我认为，深入审视后会发现，这一成就几乎无法证明 AI 的能力取得了实质性进步。

这很大程度上是运气使然：AI 解出的 5 道题，其难度并未超越现有系统的能力范围；而唯一未解的那道题，其难度又远非任何系统所能企及。

本文将从宏观与微观两个视角论证，为何我们不应过度解读这次 IMO 的结果。

宏观视角：信息量缺失的赛题样本

根本问题在于今年赛题的难度分布极不均衡。

这一点，在美国 IMO 国家队教练 Evan Chen 的 MOHS 难度评分图中一目了然。

资讯配图

通常，IMO 的赛题结构是两道简单题、两道中等题、两道难题。今年的特殊之处在于，它仅有一道难题。

更糟糕的是，这道唯一的难题难度极高，达到了残酷级别。

这意味着，AI 的数学能力被框定在了一个模糊的中等与残酷之间的巨大区间里。

解决这些中低难度题目，仅仅代表了 AI 在解题可靠性上的增量进步，而非涌现出任何新能力。

同理，解不出那道残酷难题，也只能排除 AI 取得跃迁式进步的可能性。我们无法从今年的赛题中判断 AI 是否获得了真正的新能力。

AI 的表现：意料之中，并非突破

如果你之前不了解 AI 已能解决顶尖数学竞赛中的中低难度问题，这次的金牌或许会让你惊讶。

但纵观过去一年的记录，你会发现，AI 的这种表现早已不足为奇。

早在今年五月，谷歌的 Gemini 2.5 Pro Deep Think 模型，就在美国数学奥林匹克竞赛（简称 USAMO）中解决了一道“中等偏难”的题目。

这已经证明，特定类型的中等难度题目，早已是顶尖 AI 的囊中之物。因此，这次解决 IMO 的中低难度题，并无更令人惊叹之处。

事实上，现有的一些公开发布模型，在本次 IMO 上的表现也相当不错。

MathArena 平台的评测显示，在 IMO 之前发布的模型中，Gemini 2.5 Pro 表现最佳，不仅解出了一道中等难度题，还在另外两道题上获得了可观的部分分数。

这进一步压缩了实验性模型展示其进步性的空间。既然它们未能攻克最难的那道题，剩下的胜利也就显得理所当然。

我们甚至无法断定 LLM 已追上 AlphaProof

一个有趣的问题是：LLM 是否追上了上一代 AI 数学领域的王者——谷歌的专用系统 AlphaProof？

AlphaProof 曾在 2024 年的 IMO 中解出了一道公认的难题。

可惜，今年的赛题难度分布再次让我们错失了答案。AI 解出的 5 道题都远比 AlphaProof 攻克的那道题简单，而最难的那道题又远比它更难。

LLM 根本没有机会在同等水平上与前辈一较高下。

微观视角：无需新能力的解题路径

那么，这些题目本身究竟如何？AI 的证明过程是否闪现了智慧的火花？

我曾期望看到一些需要人类所谓创造力或概念性思维的题目，但结果令人失望。

已解出的 5 道题，其解法都有一种顺水推舟的风格，并未超出 AI 已有能力的范畴。

而那道真正的难题，则几乎同时要求了 IMO 赛题所能考察的全部顶尖技能。

资讯配图

P1：当空间直觉被代数蛮力取代

有趣的是，对人类最简单的第一题，反而是最能揭示 AI 特征的。

“
在一个平面上，一个有限点集中的任意三点不共线。对于的一个元子集（其中），我们称一条不过中任何一点的直线为的“晴天线”，如果的一侧恰好有 2 个来自的点。证明：存在一个正实数，使得对于所有，的任意元子集都至少有条晴天线。

上图展示了 n=4 且有一条晴天线的一种构型。

人类解题的关键洞察在于：当点数大于等于 4 时，总可以找到一条线，它能覆盖点集凸包的一条边，并且移除这条边上的点后，问题可以归约为更简单的情形。

这是一种高度依赖几何直觉的简化。

LLM 显然不具备这种直觉。它们虽然最终证明了这一点，但并非通过一语道破天机的洞察，而是依赖数段复杂的代数演算来迂回达成。

这再次暴露了 LLM 在空间推理上的短板，它们只能用更长的“思考时间”和更繁琐的符号计算来弥补这一缺陷。

P4：当顺水推舟就足以破解

AI 解决的题目中，对人类最难的是哪道？是下面这道函数方程题。

“
求所有函数，使得对于所有正整数和，都有
整除

可惜，这道题的破解路径非常直接，恰好是 LLM 的强项：顺着题设条件，不断代入特殊值，就能获得大量信息，最终通向答案。

一位数学 YouTuber 的评论一针见血：这道题非常直接，你几乎不需要寻找特别的解题动机，因为只要动手去探究，答案就会自然浮现。

实验性 LLM 的证明路径与人类高手别无二致，只是语言风格略显奇特，像是未经润色的思维链原始输出，但逻辑清晰、毫厘不差。

P6：一道真正的鸿沟

最后，那道未解出的难题，确实难得超乎寻常。

“
在一个平面上有 2025 条直线，其中任意两条不平行，任意三条不共点。这些直线将平面分割成若干个区域。求这些区域中，边数最多的区域可能含有的最少边数是多少？

要解开此题，需要高度的抽象能力、无中生有的创造力，以及层层递进的逻辑深度。这三者，AI 无一具备。

它不仅没能找到非显而易见的正确答案，更遑论证明其最优性。这道题如同一道鸿沟，清晰地标示了当前 AI 的能力边界。

真正的启示：难验证领域的可靠性

那么，这枚金牌是否一文不值？也并非如此。

它至少展示了一项真正的成就：可靠性。在只允许一次提交的情况下，AI 成功输出了五份无懈可击的自然语言证明。

这恰恰触及了一个关键领域：那些无法被自动验证，但人类专家一看便知对错的领域，比如数学证明、法律文书、代码审查等。

IMO 的结果表明，经过充分强化的 LLM，确实有能力在这类领域中，交付逻辑可靠的成果，只要推理的难度不触及天花板。

但若要寻找超越中等难度的、真正标志着能力涌现的推理火花，我们显然需要将目光投向别处。

¹ 关于普遍认知，可参见此处。当然，“简单”是相对的：大多数高中生连一道较简单的 IMO 题目都无法解决。

² 我将主要依赖 MOHS 评级来进行“宏观”视角的分析。这些评级当然是主观的，但 Chen 在奥赛界备受尊敬，这已经是我们能得到的最接近权威专家意见的评估了。

³ USAMO 是一项美国全国性竞赛，其形式与 IMO 相同，难度也相当。

⁴ 请注意，对于这 4 个样本中的每一个，MathArena 都使用了一个 best-of-32 的框架，其中 LLM 在单败淘汰赛中评判自己的解决方案。这相当于 1-2 个数量级的测试时计算量扩展，并且他们根据经验表示，这显著提升了性能。所以，这并不完全是“开箱即用”的性能，但它表明，单纯的测试时扩展就能在很大程度上接近金牌水平。事实上，加州大学洛杉矶分校 (UCLA) 的一位教授声称，他仅通过框架引导，而无需任何额外训练，就从 Gemini 2.5 Pro 中引出了完整的金牌表现。该结果未经预注册或独立验证，但我认为它与其他所有证据指向了同一个方向。

⁵ 这对 AI 公司 Harmonic 来说太糟糕了，他们的模型能像 AlphaProof 一样生成形式化证明，并且也解出了 2025 年 IMO 的 5 道较简单的题目：但他们无法声称解决了任何比 AlphaProof 解决过的更难的、未经污染的 IMO 题目。

⁶ 你或许仅从 MOHS 评级就能推断出这一点：我最喜欢的一道 IMO 题目，AlphaProof 未能解出，所有公开发布的模型也都无法解决，我认为它需要类似创造力的东西，而那道题的 MOHS 评级已经是 35。即便是目前公开发布版本的 Deep Think，在我采样的 6 次中也每次都答错了，尽管这不是在 IMO 上赢得金牌的那个版本。

⁷ OpenAI 的一位研究员声称，他们的模型至少知道自己不知道 P6 的正确答案。这是可信的，因为 LLM 确实是基于证明的竞赛问题解答正确性的不错评判者。

⁸ 我是基于以下事实推断出这一点的：(a) 没有任何 AI 系统在该问题上获得部分分数，以及 (b) MathArena 的评分标准规定，只要找到一个能达到正确最终答案的构造，就能获得 1 分。

原文地址：https://substack.com/inbox/post/170319306

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！