文丨丁灵波

继上次与谷歌DeepMind争夺国际数学奥林匹克竞赛（IMO）金牌被打脸后，OpenAI一直想在国际竞赛中再次找回场子。

今天，OpenAI研究员Sheryl Hsu宣布：其内部研发的AI推理系统，在全球顶级编程竞赛——2025年国际信息学奥林匹克竞赛（IOI）中，取得了金牌成绩，这是AI首次在该领域达到金牌水平，并且在所有AI参赛者中排名第一。

此外，OpenAI还不忘强调其同一模型系列在IMO（数学证明）、AtCoder Heuristics（竞技编程）以及现在的IOI中均表现出色——涵盖创造性、模糊性和精确推理任务。

IOI是针对大学预科生的全球顶级编程竞赛——在严格的运行时间和内存限制下，两天紧张的比赛需要解决复杂的算法问题，今年的IOI比赛中，有来自世界各地的330名参赛者，中国选手最终在前5名中拿下了3个名额。

Sheryl Hsu表示，与人类参赛者一样，OpenAI的系统在比赛中没有互联网或RAG，只有一个基本的终端工具，此外，团队使用了一组通用推理模型进行比赛——没有专门为IOI训练任何模型，包括提交方式和时间限制方面，所有流程均与人类参赛者保持一致，但没有比赛组织者的直接监督。

不过，这份“金牌”荣誉还没捂热就被马斯克diss了。

各自“称冠”的大模型

OpenAI公布自己的IOI竞赛成绩后不久，马斯克随手就转发了一个帖子，亮出了第三方评测机构的IOI Benchmark排名，并直言Grok在编码方面毫无疑问胜出，而且水平并不接近，言外之意就是要比后几名遥遥领先一大截。

这份榜单来自全球领先的大语言模型（LLM）企业级基准测试平台Vals AI，该平台专注于通过行业定制化任务评估AI模型的实际应用能力，

Vals AI评测结果认为，所有最佳模型目前仍然存在重大缺陷，它们中的任何一个都不可能在这两年的比赛中获得真正的排名第一，不过Grok 4目前以26.2%的准确率领先，其次是GPT-5、Gemini 2.5 Pro和Claude Opus 4.1，通过使用公共端点进行测试，所有模型在IOI方面仍有很大改进空间。

此外，只有那些成本高昂（每个问题花费2美元以上的）的模型才能取得有意义的成绩表现（>10 %) ，一分价钱一分货。

OpenAI和谷歌最近报告称他们的模型在国际数学奥林匹克竞赛 (IMO) 上获得了金牌，在Vals AI评测看来，知名的人工智能实验室都在比赛期间寻求快速验证，可能无法很好反映标准的评估程序。

AI没能碾压人类的一场竞赛

值得关注的是，在IOI 2025较量中，最顶尖的大模型尚没有一个完全碾压最佳人类参赛学生。

而且据Vals AI对比观察，2024年和2025年测试表现的一致性表明LLM实验室们目前没有针对IOI进行训练，这表明该基准目前相对不受数据污染的影响。

另外，该竞赛采用标准化的自动化评分机制，确保评估客观公正，不存在主观打分问题，IOI还具有现实应用价值，因为它所测试的C++编程技能直接适用于软件开发领域。

在IOI 2025竞赛中，斩获第一名的是来自浙江省宁波市镇海中学的高二学生刘恒熙，以总分591.23分（满分600分）的成绩领先第二名16.45分，领先OpenAI参赛模型58分。

据镇海中学官微报道，刘恒熙同学目前已获得清华大学保送资格，从其过往参赛履历来看，他从六年级开始就在各种计算机竞赛中获得不错的成绩。

本届大赛的季军范斯喆来自浙江省诸暨市海亮高级中学，排名第3；第5名陈昕阳来自浙江杭州第二中学；第8名刘海峰来自广东中山市中山纪念中学，按照大赛的规则，四位中国少年全部跻身进金牌区。

从IOI 2025结果看，大模型与高中生的成绩对比揭示了AI技术虽然能超过98%的人类选手，但和人类“天才”选手们比起来还是有所差距，尤其在创造性问题解决、复杂策略制定等领域还存在明显不足。

值得肯定的是，OpenAI的参赛成绩验证了模型多领域迁移学习的可行性：同一模型在IMO数学竞赛和IOI编程竞赛中均获金牌，表明其推理框架具备较强的跨学科泛化能力。

冤家路窄隔空互怼

同一天，“冤家路窄”的奥特曼和马斯克在社交媒体上又互相撕了起来，这次口水仗还拉上了苹果。

导火索在于，马斯克在社交平台上发文，质疑苹果公司在应用商店中偏袒OpenAI，称苹果的相关限制措施导致除OpenAI外，其他人工智能公司的应用无法在苹果应用商店排行榜中登顶，这一行为构成了“明确的反垄断违规”，xAI将立即对苹果采取法律行动。

截至8月11日美国地区的苹果应用商店内的生产力软件排行中，OpenAI的ChatGPT排第一，而马斯克旗下xAI的Grok排第二，并且ChatGPT是苹果“必备应用”栏目中唯一的AI聊天机器人，App Store还在“应用”栏目顶部提供了OpenAI最新旗舰模型GPT-5的下载链接，Grok并没有获得这种推广待遇。

针对此事，山姆·奥特曼回应称：“鉴于我听到的指控，即埃隆经常操纵X来为自己和自己的公司谋利，并损害他的竞争对手和他不喜欢的人。”被马斯克diss：“你这个骗子。”

苹果与OpenAI的合作从去年就已开始，双方没有涉及明面资金往来，但是以相互提供服务作为交易，苹果正将ChatGPT集成到iOS、iPadOS和macOS的体验中，让用户无需在工具之间切换即可访问ChatGPT的功能。

也有网友指出，其实奥特曼才是操控产品打压对手的一方，ChatGPT为每个公司的网站提供了可点击的链接，但当涉及到X内容时，这些链接会被提示不安全，相反，OpenAI的直播公告、产品发布、研究论文甚至团队的例行更新每次都会在X上获得不错的曝光度。

不过马斯克指责苹果和OpenAI“有一腿”操控APP排行的观点目前并没有充分的证据证明和说服力，因为早在今年1月份，中国的AI应用DeepSeek就曾同时登顶苹果中美两区App Store免费榜第一名，7月份，热门AI应用Perplexity在印度AppStore上也曾超越ChatGPT成为排名第一的应用。

xAI于上个月推出了Grok 4，日前GPT-5发布后不久，xAI直接宣布Grok 4向全球所有用户免费开放（每日次数有限），尽管xAI付出了诸多努力和投入，其排名仍然落后于OpenAI的ChatGPT，这可能才是马斯克无法接受的一点。

OpenAI相比xAI仍有很多市场先发优势，周活跃用户数达到7亿之多，尽管Grok性能参数不错，但想要在市场上干翻ChatGPT仍是一大挑战。

-END-
如果您有什么想说的，欢迎在评论区留言讨论！
投稿或寻求报道，欢迎私信“投稿”，添加编辑微信。
【2025免费新年礼】：了解最新科技趋势分析、行业内部的独家见解、定期的互动讨论和知识分享、与行业专家的直接面对面交流的机会，领取100份AI科技商业研报合集，加群共同探讨与成长——
扫描下方二维码，添加头部科技晶总微信！