奥数夺金，编程摘银！波兰Psycho以9.5%微弱优势险胜OpenAI模型，AI在两大「人类智慧试金石」上与顶尖天才并驾齐驱

OpenAI 与谷歌 DeepMind 的 AI 模型，双双在国际数学奥林匹克竞赛中斩获金牌。这场胜利所揭示的，是人工智能已远超数学本身的广阔前景。

PATRICK MCGUINNESS

2025 年 7 月 23 日

A person holding a sign with a microphone and a person standing in front of him

AI-generated content may be incorrect. — Przemysław Dębiak 正在领奖

图 1. Przemysław Dębiak（右）在 2025 年 AtCoder 世界总决赛中，以微弱优势险胜 OpenAI 模型后获奖。他，或许是最后一位在编程竞赛中战胜 AI 的人类。图片来源：Przemysław Dębiak。

新时代的序幕

“我们最新的实验性推理大语言模型，达成了一项人工智能领域的长期重大挑战：在全球最负盛名的国际数学奥林匹克竞赛中，取得了金牌水平的成绩。” —— OpenAI，Alexander Wei

短短数日内，人工智能在数学与编程这两个人类智慧的高地，接连传来捷报。

OpenAI 的一款推理大语言模型，在 2025 年国际数学奥林匹克（IMO）中，表现出金牌水准。
谷歌 DeepMind 同样在 2025 年 IMO 中，取得了金牌级别的成绩。
而在另一场国际顶级的编程竞赛中，一个 OpenAI 模型摘得亚军。

这一系列事件本身已是重磅新闻。更深远的意义在于，它揭示了正推动人工智能实现下一次飞跃的核心创新方向。

谷歌 DeepMind 的深思

“我们可以确认，谷歌 DeepMind 已经达到了这个梦寐以求的里程碑，在满分 42 分中取得了 35 分——这是无可争议的金牌分数。” —— IMO 主席，Gregor Dolinar 教授

谷歌派出了其性能最强的 Gemini 2.5 Pro 的高级版本——Deep Think 模型，参加 2025 年 IMO。

它成功解出 6 道题目中的 5 道，豪取 35 分，稳稳地达到了 IMO 的金牌标准。

整个过程实现了从自然语言问题到形式化数学证明的端到端解题，无需任何人工预处理，并且完全在 4.5 小时的竞赛时限内完成。

这与他们去年的策略截然不同。当时，他们依赖的是特定领域的工具组合，包括 LEAN 形式化证明语言、AlphaProof 以及专攻几何的 AlphaGeometry 模型。

而这一次，他们依靠的，是更通用的 Gemini 2.5 Pro Deep Think 模型。他们充分释放了 Deep Think 的并行思考能力，并为 IMO 这项极限任务深度优化了模型。

为了将 Deep Think 的推理潜力发挥到极致，我们采用了新颖的强化学习技术进行专项训练，使其能驾驭更复杂的多步推理、问题求解和定理证明。我们还为其注入了海量高质量的数学解题方案，并在指令中内置了应对 IMO 级难题的通用策略与技巧。

这是通用人工智能模型首次在 IMO 舞台上达到金牌的高度。回想 2024 年，取得银牌的还是一款更为狭隘、灵活性更差的专用模型。

OpenAI 的解法

OpenAI 采用了一款实验性的推理大语言模型，在完全模拟人类竞赛的严苛规则下，挑战了 2025 年的 IMO 题目。

这意味着，它同样要在两场 4.5 小时的鏖战中，不借助任何外部工具，仅凭自然语言生成严谨的证明。

虽然并非正式参赛，但经前 IMO 评委的独立评分，其成绩与 DeepMind 并驾齐驱：解出 6 题中的 5 题，获得 35 分，同样达到了金牌水准。

OpenAI 的 Alexander Wei 在社交媒体上阐述了这一成就的重大意义：

这为何如此重要？首先，IMO 问题要求的是一种前所未有的、持续且高强度的创造性思维，这远超以往任何基准测试。
其次，IMO 的答案是长达数页、极难验证的证明过程。在此取得突破，意味着我们必须超越传统强化学习那种依赖明确、可量化奖励的范式。我们做到了，并因此获得了一个能构建出与顶尖人类数学家一样复杂、一样严谨论证的强大模型。

这些由 AI 生成的证明，经过了 IMO 奖牌得主的独立审核，被评价为“清晰、精确、且逻辑流畅易懂”。OpenAI 已在 GitHub 上开源了全部证明过程。

与 DeepMind 一样，这项成就的含金量在于它来自一个通用 AI 模型，而非狭隘的专用系统。不同的是，OpenAI 的模型尚处在研究探索阶段，官方表示在充分评估后才会考虑公开发布。

当然，OpenAI 的高调宣布也引来了一些争议，批评其在非官方参赛、非官方评分的情况下，抢领了金牌的荣誉。

此外，另一家名为 Harmonic 的 AI 公司也派出了其数学推理模型 Aristotle 参加 IMO，其最终表现如何，我们拭目以待。

编程赛场的惜败

“人类，（暂时）守住了最后的防线！” —— Psyho / Przemysław Dębiak

紧随 IMO 的突破，OpenAI 在东京的 AtCoder 世界巡回赛总决赛上再次成为焦点。这是全球难度最高的公开编程擂台。

赛场上，12 位世界最顶尖的人类程序员，与一个名为 OpenAIAHC 的 AI 选手同台竞技。

他们的挑战是在 10 小时内，攻克一个极其复杂的 NP 难优化问题。

最终，来自波兰的前 OpenAI 工程师 Przemysław “Psyho” Dębiak，以 9.5% 的微弱优势险胜 AI，夺得冠军。尽管如此，这个 AI 已经超越了其余所有的人类顶级高手。

一个不争的事实是：在那些需要复杂创造力来解决问题的领域，AI 正在迅速追平人类最顶尖的智慧。

被不断填满的数学基准

AI 模型正在以惊人的速度刷满一个又一个基准测试。

在不到三年的时间里，GSM8K、MATH、AIME 和 IMO 这四大数学基准，已有三个被基本攻克。

GSM8K (小学数学): 2023 年 3 月的 GPT-4 已能达到 92% 的准确率。
MATH (中学到本科初级):o3-mini 模型已将准确率推高至惊人的 97.9%。
AIME (顶尖高中生邀请赛):Gemini 2.5 Pro 的得分率已达到 92%。值得一提的是，在工具辅助下，o4-mini 甚至在 AIME 2025 上取得了 99.5% 的近乎完美成绩。