OpenAI与xAI争锋IOI竞赛第一,奥特曼和马斯克互怼,最佳大模型集体输给高中生?

头部科技 2025-08-12 19:25
资讯配图
资讯配图
文丨丁灵波
继上次与谷歌DeepMind争夺国际数学奥林匹克竞赛(IMO)金牌被打脸后,OpenAI一直想在国际竞赛中再次找回场子。
今天,OpenAI研究员Sheryl Hsu宣布:其内部研发的AI推理系统,在全球顶级编程竞赛——2025年国际信息学奥林匹克竞赛(IOI)中,取得了金牌成绩,这是AI首次在该领域达到金牌水平,并且在所有AI参赛者中排名第一。
资讯配图
此外,OpenAI还不忘强调其同一模型系列在IMO(数学证明)、AtCoder Heuristics(竞技编程)以及现在的IOI中均表现出色——涵盖创造性、模糊性和精确推理任务。
IOI是针对大学预科生的全球顶级编程竞赛——在严格的运行时间和内存限制下,两天紧张的比赛需要解决复杂的算法问题,今年的IOI比赛中,有来自世界各地的330名参赛者,中国选手最终在前5名中拿下了3个名额。
资讯配图
Sheryl Hsu表示,与人类参赛者一样,OpenAI的系统在比赛中没有互联网或RAG,只有一个基本的终端工具,此外,团队使用了一组通用推理模型进行比赛——没有专门为IOI训练任何模型,包括提交方式和时间限制方面,所有流程均与人类参赛者保持一致,但没有比赛组织者的直接监督。
不过,这份“金牌”荣誉还没捂热就被马斯克diss了。
资讯配图
各自“称冠”的大模型
OpenAI公布自己的IOI竞赛成绩后不久,马斯克随手就转发了一个帖子,亮出了第三方评测机构的IOI Benchmark排名,并直言Grok在编码方面毫无疑问胜出,而且水平并不接近,言外之意就是要比后几名遥遥领先一大截。
资讯配图
资讯配图
这份榜单来自全球领先的大语言模型(LLM)企业级基准测试平台Vals AI,该平台专注于通过行业定制化任务评估AI模型的实际应用能力,
Vals AI评测结果认为,所有最佳模型目前仍然存在重大缺陷,它们中的任何一个都不可能在这两年的比赛中获得真正的排名第一,不过Grok 4目前以26.2%的准确率领先,其次是GPT-5、Gemini 2.5 Pro和Claude Opus 4.1,通过使用公共端点进行测试,所有模型在IOI方面仍有很大改进空间。
此外,只有那些成本高昂(每个问题花费2美元以上的)的模型才能取得有意义的成绩表现(>10 %) ,一分价钱一分货。
OpenAI和谷歌最近报告称他们的模型在国际数学奥林匹克竞赛 (IMO) 上获得了金牌,在Vals AI评测看来,知名的人工智能实验室都在比赛期间寻求快速验证,可能无法很好反映标准的评估程序。
资讯配图
AI没能碾压人类的一场竞赛
值得关注的是,在IOI 2025较量中,最顶尖的大模型尚没有一个完全碾压最佳人类参赛学生。
而且据Vals AI对比观察,2024年和2025年测试表现的一致性表明LLM实验室们目前没有针对IOI进行训练,这表明该基准目前相对不受数据污染的影响。
另外,该竞赛采用标准化的自动化评分机制,确保评估客观公正,不存在主观打分问题,IOI还具有现实应用价值,因为它所测试的C++编程技能直接适用于软件开发领域。

IOI 2025竞赛中,斩获第一名的是来自浙江省宁波市镇海中学的高二学生刘恒熙,总分591.23分(满分600分)的成绩领先第二名16.45分,领先OpenAI参赛模型58分。


资讯配图
资讯配图

镇海中学官微报道,刘恒熙同学目前已获得清华大学保送资格,从其过往参赛履历来看,他从六年级开始就在各种计算机竞赛中获得不错的成绩。


资讯配图

资讯配图


本届大赛的季军范斯喆来自浙江省诸暨市海亮高级中学,排名第3;第5名陈昕阳来自浙江杭州第二中学;第8名刘海峰来自广东中山市中山纪念中学,按照大赛的规则,四位中国少年全部跻身进金牌区。


从IOI 2025结果看,大模型与高中生的成绩对比揭示了AI技术虽然能超过98%的人类选手,但和人类“天才”选手们比起来还是有所差距,尤其在创造性问题解决、复杂策略制定等领域还存在明显不足。


值得肯定的是,OpenAI的参赛成绩验证了模型多领域迁移学习的可行性:同一模型在IMO数学竞赛和IOI编程竞赛中均获金牌,表明其推理框架具备较强的跨学科泛化能力。

资讯配图
冤家路窄隔空互怼

同一天,“冤家路窄”的奥特曼和马斯克在社交媒体上又互相撕了起来,这次口水仗还拉上了苹果。


导火索在于,马斯克在社交平台上发文,质疑苹果公司在应用商店中偏袒OpenAI,称苹果的相关限制措施导致除OpenAI外,其他人工智能公司的应用无法在苹果应用商店排行榜中登顶,这一行为构成了“明确的反垄断违规”,xAI将立即对苹果采取法律行动。


截至8月11日美国地区的苹果应用商店内的生产力软件排行中,OpenAI的ChatGPT排第一,而马斯克旗下xAI的Grok排第二,并且ChatGPT是苹果“必备应用”栏目中唯一的AI聊天机器人,App Store还在“应用”栏目顶部提供了OpenAI最新旗舰模型GPT-5的下载链接,Grok并没有获得这种推广待遇。


资讯配图

针对此事,山姆·奥特曼回应称:“鉴于我听到的指控,即埃隆经常操纵X来为自己和自己的公司谋利,并损害他的竞争对手和他不喜欢的人。”被马斯克diss:“你这个骗子。”


苹果与OpenAI的合作从去年就已开始,双方没有涉及明面资金往来,但是以相互提供服务作为交易,苹果正将ChatGPT集成到iOS、iPadOS和macOS的体验中,让用户无需在工具之间切换即可访问ChatGPT的功能。


资讯配图


也有网友指出,其实奥特曼才是操控产品打压对手的一方,ChatGPT为每个公司的网站提供了可点击的链接,但当涉及到X内容时,这些链接会被提示不安全,相反,OpenAI的直播公告、产品发布、研究论文甚至团队的例行更新每次都会在X上获得不错的曝光度。


不过马斯克指责苹果和OpenAI“有一腿”操控APP排行的观点目前并没有充分的证据证明和说服力,因为早在今年1月份,中国的AI应用DeepSeek就曾同时登顶苹果中美两区App Store免费榜第一名,7月份,热门AI应用Perplexity在印度AppStore上也曾超越ChatGPT成为排名第一的应用


资讯配图

xAI于上个月推出了Grok 4,日前GPT-5发布后不久,xAI直接宣布Grok 4向全球所有用户免费开放(每日次数有限),尽管xAI付出了诸多努力和投入,其排名仍然落后于OpenAI的ChatGPT,这可能才是马斯克无法接受的一点。


OpenAI相比xAI仍有很多市场先发优势,周活跃用户数达到7亿之多,尽管Grok性能参数不错,但想要在市场上干翻ChatGPT仍是一大挑战。


-END-

资讯配图
如果您有什么想说的,欢迎在评论区留言讨论!
投稿或寻求报道,欢迎私信“投稿”,添加编辑微信。
【2025免费新年礼】:了解最新科技趋势分析、行业内部的独家见解、定期的互动讨论和知识分享、与行业专家的直接面对面交流的机会,领取100份AI科技商业研报合集,加群共同探讨与成长——
扫描下方二维码,添加头部科技晶总微信!
资讯配图

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI
more
硬件只是入场券:AI可穿戴的百万销量背后,软件与场景才是终极战场
AI全国榜单爆冷,全网吃瓜大狂欢!这家黑马竟靠DeepSeek杀进全国TOP 2
华为发布AI推理创新技术
奥特曼砍掉GPT-4o引爆AI「戒断反应」,马斯克官宣Grok4全球免费!
物理学「AlphaGo时刻」?40年未竟之事被AI一举攻破,顶尖物理学家集体傻眼
拐点已现:"人工智能+"的价值70%来自物联网,AI归位物理世界
AI应用如何落地政企?首先不要卷通用大模型
分支动态丨CAAI 机器博弈专委会走进祁门  助力基层干部拥抱智能时代
NVIDIA 通过全新 Omniverse 库、Cosmos 物理 AI 模型及 AI 计算基础设施,为机器人领域开启新篇章
【教育】AI赋能教育:构建智慧校园新生态
Copyright © 2025 成都科技区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号