
OpenAI 的人工智能推理系统,在全球顶尖的国际信息学奥林匹克竞赛(简称 IOI)的 AI 赛道上,赢得了一枚金牌。
它的成绩不仅在所有 AI 系统中排名第一,甚至在 330 名人类顶尖选手中,也超越了绝大多数,仅有 5 人得分在它之上。
更关键的是,这一切都是在严格的竞赛规则下完成的:全程断网,禁止使用检索增强生成(也就是 RAG)等外部工具,限时 5 小时,提交次数不能超过 50 次。
从平庸到卓越的飞跃
短短一年时间,OpenAI 的系统在 IOI 上的解题水平,就从大约 49% 的中游位置,一举飙升到了 98% 的顶尖梯队。
IOI 的题目难度极高,要求选手编写出能通过一系列未知隐藏测试的完整程序。
这次 AI 的比赛环境完全模拟人类选手的真实赛况。系统面对的只有一个基础终端,自己编译和运行代码,像人类大脑一样在高压下分配时间和策略。
真正解决问题的能力
这种与人类选手完全对等的竞赛方式意义重大,因为它排除了所有投机取巧的可能,真正考验的是 AI 在压力下分析和解决未知问题的硬实力。
OpenAI 团队并没有为此专门训练一个模型。他们的策略是,将几个不同但都很强的通用推理模型组合起来,形成一个模型智能体团队。
这个智能体团队会生成多种候选程序,并进行自我验证,然后挑选出最有希望通过的方案提交给竞赛的自动评测系统。本质上,这就是一套围绕真实环境的「测试时搜索」加「自我验证」的强大方法。
通用推理的胜利
这一年的进步是巨大的。去年,他们的系统还在铜牌线挣扎;今年,就已经能胜过 325 名人类精英选手,稳居顶尖行列。
近期在其他编程竞赛上的成功也验证了这一趋势:成功的关键不再是针对特定任务的人工定制,而是更强大、更通用的推理能力。
这背后传递的信号很简单:通过更强的代码搜索能力、更紧密的反馈循环和更优的筛选策略,AI 模型已经能在严苛的竞赛中,解决它从未见过的算法难题。
这条路,对开发未来的实用工程工具同样充满启发。
什么是 IOI?
IOI,全称国际信息学奥林匹克竞赛,是全世界高中生的最高级别编程竞赛。
赛程持续两天,每天 3 道高难度算法题,限时 5 小时。选手们必须在与外界完全隔离的环境下,提交 C++ 代码来解决问题。
以 2025 年为例,来自 84 个国家的 330 名选手参赛,满分 600,而金牌分数线高达 438.30 分。最终,只有 28 名选手摘得金牌,其选拔之严苛可见一斑。
进化之路:从专用到通用
回顾 OpenAI 的历程,在 2024 年,他们使用一个名为 o1-ioi 的专用系统参赛,在现场比赛中获得 213 分,处于约 49% 的中等水平。
而在赛后,团队用一个名为 o3 的通用模型,在同样规则下测试 2024 年的题目,取得了 395.64 分,这已经超过了当年的金牌线。这标志着策略的重大转变。
到了 2025 年,OpenAI 的通用模型集成系统正式参赛,最终取得了相当于人类选手第六名的成绩,这不仅意味着它稳稳地踏入了金牌区,更证明了其性能已达到全球前 2% 的顶尖水平。
这意味着什么?
5 小时的时间限制和 50 次的提交上限,是 IOI 比赛的核心难点,它极大地考验了选手在高压下调试代码、优化方案的能力。
OpenAI 的系统正是在这样与人类完全相同的严苛条件下,实现了从 2024 年中游水平到 2025 年顶尖金牌实力的巨大跨越。
这场胜利,与其说是特定算法的胜利,不如说是通用推理模型在稳健性和搜索策略上取得的巨大突破。
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!