奥数夺金,编程摘银!波兰Psycho以9.5%微弱优势险胜OpenAI模型,AI在两大「人类智慧试金石」上与顶尖天才并驾齐驱

智能情报所 2025-07-23 15:16

OpenAI 与谷歌 DeepMind 的 AI 模型,双双在国际数学奥林匹克竞赛中斩获金牌。这场胜利所揭示的,是人工智能已远超数学本身的广阔前景。

PATRICK MCGUINNESS

2025 年 7 月 23 日

A person holding a sign with a microphone and a person standing in front of him

AI-generated content may be incorrect.
Przemysław Dębiak 正在领奖

图 1. Przemysław Dębiak(右)在 2025 年 AtCoder 世界总决赛中,以微弱优势险胜 OpenAI 模型后获奖。他,或许是最后一位在编程竞赛中战胜 AI 的人类。图片来源:Przemysław Dębiak。

新时代的序幕

“我们最新的实验性推理大语言模型,达成了一项人工智能领域的长期重大挑战:在全球最负盛名的国际数学奥林匹克竞赛中,取得了金牌水平的成绩。” —— OpenAI,Alexander Wei

短短数日内,人工智能在数学与编程这两个人类智慧的高地,接连传来捷报。

  • OpenAI 的一款推理大语言模型,在 2025 年国际数学奥林匹克(IMO)中,表现出金牌水准

  • 谷歌 DeepMind 同样在 2025 年 IMO 中,取得了金牌级别的成绩。

  • 而在另一场国际顶级的编程竞赛中,一个 OpenAI 模型摘得亚军

这一系列事件本身已是重磅新闻。更深远的意义在于,它揭示了正推动人工智能实现下一次飞跃的核心创新方向。

谷歌 DeepMind 的深思

“我们可以确认,谷歌 DeepMind 已经达到了这个梦寐以求的里程碑,在满分 42 分中取得了 35 分——这是无可争议的金牌分数。” —— IMO 主席,Gregor Dolinar 教授

谷歌派出了其性能最强的 Gemini 2.5 Pro 的高级版本——Deep Think 模型,参加 2025 年 IMO。

它成功解出 6 道题目中的 5 道,豪取 35 分,稳稳地达到了 IMO 的金牌标准。

整个过程实现了从自然语言问题到形式化数学证明的端到端解题,无需任何人工预处理,并且完全在 4.5 小时的竞赛时限内完成。

这与他们去年的策略截然不同。当时,他们依赖的是特定领域的工具组合,包括 LEAN 形式化证明语言、AlphaProof 以及专攻几何的 AlphaGeometry 模型。

而这一次,他们依靠的,是更通用的 Gemini 2.5 Pro Deep Think 模型。他们充分释放了 Deep Think 的并行思考能力,并为 IMO 这项极限任务深度优化了模型。

为了将 Deep Think 的推理潜力发挥到极致,我们采用了新颖的强化学习技术进行专项训练,使其能驾驭更复杂的多步推理、问题求解和定理证明。我们还为其注入了海量高质量的数学解题方案,并在指令中内置了应对 IMO 级难题的通用策略与技巧。

这是通用人工智能模型首次在 IMO 舞台上达到金牌的高度。回想 2024 年,取得银牌的还是一款更为狭隘、灵活性更差的专用模型

OpenAI 的解法

OpenAI 采用了一款实验性的推理大语言模型,在完全模拟人类竞赛的严苛规则下,挑战了 2025 年的 IMO 题目。

这意味着,它同样要在两场 4.5 小时的鏖战中,不借助任何外部工具,仅凭自然语言生成严谨的证明。

虽然并非正式参赛,但经前 IMO 评委的独立评分,其成绩与 DeepMind 并驾齐驱:解出 6 题中的 5 题,获得 35 分,同样达到了金牌水准。

OpenAI 的 Alexander Wei 在社交媒体上阐述了这一成就的重大意义:

这为何如此重要?首先,IMO 问题要求的是一种前所未有的、持续且高强度的创造性思维,这远超以往任何基准测试。

其次,IMO 的答案是长达数页、极难验证的证明过程。在此取得突破,意味着我们必须超越传统强化学习那种依赖明确、可量化奖励的范式。我们做到了,并因此获得了一个能构建出与顶尖人类数学家一样复杂、一样严谨论证的强大模型。

这些由 AI 生成的证明,经过了 IMO 奖牌得主的独立审核,被评价为“清晰、精确、且逻辑流畅易懂”。OpenAI 已在 GitHub 上开源了全部证明过程。

与 DeepMind 一样,这项成就的含金量在于它来自一个通用 AI 模型,而非狭隘的专用系统。不同的是,OpenAI 的模型尚处在研究探索阶段,官方表示在充分评估后才会考虑公开发布。

当然,OpenAI 的高调宣布也引来了一些争议,批评其在非官方参赛、非官方评分的情况下,抢领了金牌的荣誉

此外,另一家名为 Harmonic 的 AI 公司也派出了其数学推理模型 Aristotle 参加 IMO,其最终表现如何,我们拭目以待。

编程赛场的惜败

“人类,(暂时)守住了最后的防线!” —— Psyho / Przemysław Dębiak

紧随 IMO 的突破,OpenAI 在东京的 AtCoder 世界巡回赛总决赛上再次成为焦点。这是全球难度最高的公开编程擂台。

赛场上,12 位世界最顶尖的人类程序员,与一个名为 OpenAIAHC 的 AI 选手同台竞技。

他们的挑战是在 10 小时内,攻克一个极其复杂的 NP 难优化问题。

最终,来自波兰的前 OpenAI 工程师 Przemysław “Psyho” Dębiak,以 9.5% 的微弱优势险胜 AI,夺得冠军。尽管如此,这个 AI 已经超越了其余所有的人类顶级高手。

一个不争的事实是:在那些需要复杂创造力来解决问题的领域,AI 正在迅速追平人类最顶尖的智慧。

被不断填满的数学基准

AI 模型正在以惊人的速度刷满一个又一个基准测试。

在不到三年的时间里,GSM8K、MATH、AIME 和 IMO 这四大数学基准,已有三个被基本攻克。

  • GSM8K (小学数学): 2023 年 3 月的 GPT-4 已能达到 92% 的准确率。

  • MATH (中学到本科初级):o3-mini 模型已将准确率推高至惊人的 97.9%。

  • AIME (顶尖高中生邀请赛):Gemini 2.5 Pro 的得分率已达到 92%。值得一提的是,在工具辅助下,o4-mini 甚至在 AIME 2025 上取得了 99.5% 的近乎完美成绩。

A graph with colorful lines and text

AI-generated content may be incorrect.
图表显示AI在各项数学基准测试上的分数随时间推移而迅速增长

图 2. 过去五年,AI 在基准测试上的进化轨迹,就是新基准被不断提出,然后被加速攻克的过程。我们快要没有现成的数学难题来考验 AI 了。

现在,最后的堡垒只剩下国际数学奥林匹克(IMO)。它之所以被视为数学竞赛的珠穆朗玛峰,是因为它考验的远不止是解题,更是数学的创造力、洞察力与严谨的逻辑构建能力。

这对 AI 是一个极高的挑战,它必须进行长达百分钟的持续思考,才能构建出融合了逻辑、知识与创造力的复杂证明。

目前,2025 年的 IMO 题目已被收录为一项公开基准。Gemini 2.5 Pro 在上面取得了 31% 的平均分,虽已极其强大,但距离奖牌线尚有距离。

或许,在 IMO 之后,下一个衡量 AI 数学能力的终极基准,将是解决至今未解的数学猜想,或独立撰写出具有原创性的数学论文。

通往金牌的创新引擎:强化学习

尽管当前公开发布的 AI 模型还无法复现此次 IMO 金牌级的表现,但这些尖端技术很快会下沉到主流产品中。

首先,DeepMind 已公开承诺,将向特定用户群体开放这款强大的数学 Deep Think 模型。

我们将首先向包括数学家在内的可信测试者开放 Deep Think 模型,之后再向 Google AI Ultra 订阅者全面推出。

其次,更关键的是,OpenAI 和 DeepMind 不约而同地指向了同一个技术突破口:针对推理任务的强化学习创新

DeepMind 提到,他们训练模型时使用了“能驾驭更多步推理、问题解决和定理证明数据的新颖强化学习技术。”

OpenAI 的 Alexander Wei 则说得更白:

我们之所以能达到这个高度,靠的不是狭隘的专用方法,而是在通用目的的强化学习测试时计算扩展这两个基础领域,开辟了新疆界。

要解决 IMO 这类奖励信号极其稀疏甚至完全缺失的难题,所谓的新疆界,很可能指向了自举奖励方法或更优的自我反思机制。

一旦方向被指明,整个行业的力量会迅速跟进,逆向工程出类似的高效解决方案。

最疯狂的是,这一切甚至发生在 GPT-5 发布之前。OpenAI 明确表示:

我们很快会发布 GPT-5,但此次用于 IMO 的是一个独立的实验模型。它所使用的前沿研究技术,将融入未来的模型中——但我们不打算在未来数月内发布具备同等级别能力的模型。

超越数学与编码的未来

人工智能的进化速度,丝毫没有放缓的迹象。

去年,专用 AI 在 IMO 摘银;今年,通用 AI 已然夺金。也许明年此时,公开发布的 AI 模型就能在 IMO 上取得完美满分。

在我们奔向通用人工智能的道路上,一个个衡量人类智力的标尺被不断超越。当我们再也想不出任何基准可以难倒 AI 时,或许就是 AGI 之后的新纪元了。

A cartoon of a robot and a child

AI-generated content may be incorrect.
AI 生成的艺术作品:一个机器人在打扫房间

图 3. AI 艺术畅想。或许除了数学,我们更期待 AI 机器人在家务这类琐事上,展现出超人的能力。

但我们同样需要保持清醒:即便 AI 取得了金牌分,2025 年的 IMO 赛场上,仍有五位人类选手获得了满分。 人类智慧的火花,依旧闪耀。

在可预见的未来,人机协作将是远超任何一方的、最强大的智慧形态。

而回归故事的起点,这次胜利最核心的启示在于:驱动 AI 突破的,是更通用的模型和更底层的学习范式。

这种进步打开了 AI 推理能力的新空间,其影响将远远超出数学与编码,为整个科技乃至社会的发展,注入难以估量的强大动力。

可以预见,基于这些前沿研究,未来半年内面世的 AI 模型,将在推理能力上实现又一次巨大的飞跃。


一键三连点赞」「转发」「小心心

欢迎在评论区留下你的想法!


声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI
more
华硕将推法国娇兰联名 a 豆 14 Air 香氛版笔记本礼盒,内附 75ml 香水
【直播倒计时3天!】从GPU出光到万卡扩展,曦智科技算力网络创新亮相WAIC!
群脑网络2.0+Co-Agent构建AI双循环,优必选工业人形机器人Walker S2智能进化
对话阿里设计青云:最好的AI设计工具,不是技术给我们的|甲子光年
直播倒计时1天!智造觉醒:鼎捷PLM用AI重新定义企业级研发边界
Agentic AI时代揭幕,AI Agent可以开始「做生意」了?
年薪两百万研究AI精神病??Claude团队新部门火热招聘中
赢 AI 者得天下,英伟达助力SK海力士Q2财报创新高
建筑业涌入AI机器人员工:深度解码AI机器人在建筑业的机革命性机遇 |AI瞭望塔(S2E19)
利好,FAA确定MOSAIC最终规则
Copyright © 2025 成都科技区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号