OpenAI被曝作弊操纵跑分,74.9% vs 74.5%,GPT-5险胜Claude全靠少考23题?网友:玩不起就别玩

智能情报所 2025-08-12 14:28

编者按:本文内容来自知名分析机构SemiAnalysis的深度剖析,它指出了OpenAI在SWE-bench基准测试中可能存在的作弊问题。

来自 SemiAnalysis

很高兴看到OpenAI最近修正了他们图表上的乌龙,在其柱状图中更准确地反映了之前69%的SWE-bench验证分数,并展示了GPT-5所取得的74.9%的惊人成绩。

资讯配图

然而,故事并非表面上看起来那么简单。关键在于,OpenAI并没有在SWE-bench验证集上运行全部500项测试。

分数背后的疑点

74.9%的得分,是基于500道题吗?计算一下,这意味着答对了374.5道题。

但如果我们仔细查看脚注,就会发现OpenAI清楚地说明,他们只在总共500项测试的SWE-bench验证数据集中运行了 477 项。

这到底是为什么?

资讯配图

当我们直接将其与Anthropic公司的Claude Opus 4.1对比时,后者在SWE-bench验证集上取得了74.5%的成绩。

表面上看,GPT-5以74.9%的微弱优势胜出。

资讯配图

但问题是,那凭空消失的23道题是什么?它们去哪了?

竞争对手的质疑

Anthropic公司过去就曾指出过这种差异。在他们8月5日发布Opus 4.1的博客文章的一条尾注中写道:

我们报告的所有Claude 4模型的分数,都是基于完整的500道题。而OpenAI模型的分数是基于一个包含477道题的子集报告的

资讯配图

这并非最近才发生的事。

早在今年四月发布GPT-4.1时,OpenAI就承认过他们的分数遗漏了500道题中的23道,理由是这些题目的解决方案无法在他们的基础设施上运行;

如果将这些题目保守地记为0分,那么54.6%的得分就会降至52.1%。

资讯配图

SWE-bench 与 SWE-bench验证集

那么,SWE-bench和SWE-bench验证集究竟有什么区别?

我们可以借助OpenAI自己的解释,因为正是他们从原始的SWE-bench中创建了验证集。

具体来说,OpenAI在测试中发现,一些SWE-bench任务可能难以甚至不可能被解决,这导致SWE-bench基准系统性地低估了模型自主进行软件工程的能力。

因此,OpenAI雇佣了93名软件开发人员,阅读并标注了来自SWE-bench的1,699个样本,从而制作出了SWE-bench验证集。

其结果是一个评分系统,每个样本都根据一个标准被评为0、1、2或3分。

资讯配图

需要说明的是,SWE-bench的问题基本上就是一些公开软件仓库(例如astropy、django、matplotlib、requests、pylint、pytest、scikit-learn等项目)上的公开GitHub问题。

资讯配图

模型需要能够通过提交一个代码合并请求(PR)来解决这个问题,这个PR要能被提出问题的用户接受,并且能通过该项目仓库中的所有测试。

资讯配图

评分标准与筛选过程

使用OpenAI的评分标准,SWE-bench中的每个问题都得到了一个从0到3的标注。

  • 0代表问题清晰;
  • 1代表需要一些解读;
  • 2代表问题模糊或有歧义;
  • 3则代表在没有更多信息的情况下不可能解决。

最终的结果是产生了一个名为“SWE-bench验证集”的子集,其中所有问题都由人类标注者评为0、1或2分,所有评为3分(不可能解决)的问题都被移除了。

然后,通过随机抽样,构建了一个包含500道题的最终数据集。这听起来非常合理。

无法回避的核心问题

那么问题来了,既然已经有了一个经过精心筛选和验证的500道题的数据集,为什么OpenAI在发布GPT-5时,仍然只运行了其中的477项?

我们并不确定。

资讯配图

OpenAI的解释是:所有SWE-bench的评估运行都使用了一个固定的、包含477个已验证任务的子集,这些任务已在我们的内部基础设施上得到验证。

一个更公正的视角

说到底,要想最清晰地了解当前各大模型在这个基准测试上的表现,也许应该看swebench.com网站上的官方SWE-bench排行榜。

资讯配图

在那里,没有所谓的验证集,工具使用受限(仅限bash),而且大部分的测试框架都是公开可见的。

在这个更纯粹的基准上,截至5月14日的Claude 4 Opus检查点版本,其表现是领先于GPT-5的

参考资料:https://x.com/SemiAnalysis_/status/1955028150217478177


一键三连点赞」「转发」「小心心

欢迎在评论区留下你的想法!


声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI
more
对话恒星AI张伟:AIGC从工具到生态的破局之路
苹果 AI 下半场:年底问世的新 Siri,要彻底改变 iPhone 的交互
腾讯启动「AI产培生」校招专项,暗藏了哪些信号?
OpenAI与xAI争锋IOI竞赛第一,奥特曼和马斯克互怼,最佳大模型集体输给高中生?
商汤王晓刚:世界模型将加快AI从数字空间进入物理世界,「悟能」想做那个桥梁
WAIC顶会AI青年思辨|创新World Cafe形式,6大思辨直击大模型中场核心命题
【AI】刚刚,GPT-5内测抢先泄露!推理强到离谱,智商被曝140超越人类天才
【报告】教育专题五:生成式AI在K-12教育中的挑战和机遇(附PDF下载)
AI做了个“GTA5”?国产开源世界模型硬刚谷歌,实时交互、分钟级生成
奥特曼砍掉GPT-4o引爆AI「戒断反应」,马斯克官宣Grok4全球免费!
Copyright © 2025 成都科技区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号