聊聊SWE-Bench Pro：Claude Mythos 5/Fable 5 的 80.3 分，真的可信吗？图1

> 作者：北辰

聊聊SWE-Bench Pro：Claude Mythos 5/Fable 5 的 80.3 分，真的可信吗？图2

随着，大家是不是也像我一样被下面这张表刷屏了？

聊聊SWE-Bench Pro：Claude Mythos 5/Fable 5 的 80.3 分，真的可信吗？图3

特别是 SWE-bench Pro 80.3% 的得分，可以说是完全“碾压” GPT-5.5 的58.6% 。

由于模型放出的时间太短，各路大神都在火热的测试，我们让子弹多飞一会，不讨论 Fable5 的效果是否惊艳、也不管它是不是 Token 爆炸机……

我们今天来聊聊大模型的 Coding Benchmark，特别是 SWE-bench Pro，深入的了解Benchmark得分到底意味着什么？ 以及 能不能用Benchmark来选择模型。

Coding Benchmark 的四代演进

先简要回顾一下 Coding Benchmark 的发展。

聊聊SWE-Bench Pro：Claude Mythos 5/Fable 5 的 80.3 分，真的可信吗？图4

1.函数级短代码题

最早的期的 Benchmark，主要应用场景是辅助编程中的代码补全。代表有 HumanEval、MBPP、BigCodeBench，测试的是模型“会不会写一个函数”。

题目本身都很短，而且多数也不需要理解代码库、不需要调试、不需要读文档。

题库很老，污染严重。对于当下的顶级模型来说基本可以说是毫无挑战，所以实际使用时，参考价值无限接近于0。

2.竞赛编程 / 算法题

从真实的竞赛或是算法题库中选择题目，代表有 LiveCodeBench、Codeforces、LeetCode、AtCoder 等。能够测“算法、推理、边界条件、时间复杂度”。

比起 Coding，这些题目更像是考验抽象能力，不一定是实际工作中会用到的编程类型，而且……你都能刷题，大模型刷题不是更容易？

3.仓库级真实 issue 修复

为了修复前两代测试更偏向应试风格，从真实的 Github Issue 中选取，代表是 SWE-bench 系列。测试范围从答题拓宽到“能不能读代码库、定位问题、改多个文件、通过测试”。

原始 SWE-bench 有 2,294 个真实 issue。后来又衍生出多个版本：

SWE-bench Lite：300 个任务，方便低成本评测；
SWE-bench Verified：500 个经过人类过滤的任务，确保问题描述清楚、测试正确、任务可解；
SWE-bench Multimodal：517 个带截图、设计稿、视觉错误信息的软件 issue；
SWE-bench Multilingual：300 个多语言任务，避免只测 Python；
SWE-bench Live：持续更新的新任务，降低数据污染风险；
SWE-bench Pro：更复杂、更长程、更接近企业工程任务的版本。

其中 SWE-bench Verified和 Pro 是 Coding 的主流评测标准。

4.真实工作流型

针对 Agentic Coding 专门推出的评测集，测试“能不能像工程 agent 一样完成任务”。更贴近真实工作环境。

代表有 Terminal-Bench、Aider Polyglot、RepoBench、CursorBench、FrontierCode、ViBench。

这代 Benchmark 经常有私有题集或商业口径，透明度差异很大。

下面汇总了主流 coding benchmark 横向比较表，方便大家快速查询：

Benchmark	提出/维护机构	主要测什么	构成/题量	题库是否开放	泄题/污染风险	评价
HumanEval	OpenAI，Codex 论文，2021	Python 函数级代码生成	164 个手写 Python 函数题，pass@k	开放	很高。发布早、使用太广，训练集/微调集/教程中高概率出现	已经接近“入门体检”，不适合判断前沿模型
MBPP	Google Research，2021	基础 Python 程序合成	约 974 / 1000 个 crowd-sourced Python 题；测试集常用 500 个	开放	很高。同样老、广泛传播	看基础能力可以，选型价值很低
BigCodeBench	BigCode / HF 社区，ICLR 2025	更实际的函数级任务，调用库/API	1,140 个任务；139 个库，7 个领域；平均 5.6 测试用例，平均覆盖率 99%	开放	中等。比 HumanEval 新，但开放后仍会被污染	比 HumanEval 更贴近真实 Python 工具使用
LiveCodeBench	UC Berkeley / MIT / Cornell 等，ICLR 2025	竞赛编程 + 代码生成/修复/执行/测试输出预测	持续从 LeetCode、AtCoder、Codeforces 收集；早期 300+，后续 release v6 到 1055 题	开放，按时间窗口评估	相对低，因为有发布时间，可按模型 cutoff 后题目评估	目前判断“新模型代码推理能力”很有价值
SWE-bench Full	Princeton / SWE-bench 团队，ICLR 2024	真实 GitHub issue 修复	2,294 个真实 issue	开放	中高。来自公开 GitHub，且 benchmark 本身已流传	从“写函数”进化到“修仓库”的关键转折
SWE-bench Lite	SWE-bench 团队	低成本子集	300 个	开放	中高	适合便宜跑实验，但前沿模型已很容易刷高
SWE-bench Verified	SWE-bench + OpenAI，2024	人工过滤后的可解 issue 修复	500 个，人类检查描述清楚、测试正确、可解	开放	中高。公开且非常热门	一度是 coding agent 金标准，但已开始饱和
SWE-bench Multimodal	SWE-bench 团队，ICLR 2025	带视觉信息的软件 issue	517 个包含截图、mockup、图表、可视错误信息的 issue	开放	中等偏高	适合测前端/UI/视觉 bug 理解，不等于所有 coding 能力
SWE-bench Multilingual	SWE-bench 团队	多语言真实 issue	300 个，9 种编程语言	开放	中等偏高	弥补 SWE-bench Python 偏重问题
SWE-bench Live	Microsoft	持续更新的 SWE-bench-like 任务	Python 初始 1,319 / 后续 1,565+；MultiLang 743；Windows 61 等，持续月更	开放，持续更新	相对低，尤其新加入任务	解决污染的一个方向：活 benchmark
SWE-bench Pro	Scale AI，2025	长程、企业级、复杂仓库 issue 修复	1,865 总任务：731 public、858 held-out、276 commercial；41 个 repo	public 子集开放；held-out/private 不开放	设计上更抗污染：GPL/copyleft + 私有商业库	本文重点，代表 benchmark 从“开源 issue”走向“专业工程任务”
Terminal-Bench	Stanford x Laude 等	终端环境 agent 能力	v1: 80 题；v2: 89 高质量任务；领域含 SWE、ML、安全、数据科学、系统管理	部分/多数任务开放	中等。开放任务会被学习；环境/harness 影响大	测“会不会真的用终端干活”，比纯代码题更接近 agent
Aider Polyglot	Aider 项目	LLM 编辑代码能力	225 个 Exercism 任务，C++/Go/Java/JS/Python/Rust	开放	中等偏高	很实用，尤其能反映“代码编辑器里好不好用”
RepoBench	ICLR 2024，Tianyang Liu 等	仓库级代码补全/检索	Python/Java；RepoBench-R/C/P；大量样本，测 cross-file retrieval + next-line completion	开放	中等	更偏补全，不是完整 issue 修复
FrontierCode	Cognition	生产级复杂 coding eval	私有/商业 benchmark，公开细节有限	不开放	泄题低，但透明度也低	可作为公司宣传参考，不能独立验证
CursorBench	Cursor	IDE/agent coding 工作流	私有口径，细节有限	不开放	泄题低，透明度低	更像产品内测指标
ViBench	可能来自 vibe-coding / app-building 场景	端到端 vibe coding / 应用构建	细节有限	多数不开放	未知	适合新闻里提，但不宜重押结论

SWE-bench Pro 是什么

SWE-bench Pro 由 Scale AI 发布，总计 1,865 个任务，覆盖 41 个代码库。其中：

731 个 public 任务；
858 个 held-out（不对外公开的测试题目集）任务；
276 个 commercial 任务，来自私有商业代码库。

这些任务平均要修改 107 行代码、跨 4 个文件，覆盖 consumer app、B2B 服务、开发者工具等更接近企业真实环境的代码库。

能完成评测，意味着：

模型能处理专业工程师需要花数小时甚至数天才能完成的真实任务。

Benchmark 缺陷

Benchmark 得分越高，能不能代表能力越强呢？

从社群反馈和我们的个人体验来说，答案是：不能。

Scaffold 污染

很多人看 benchmark，会默认它测的是模型智商。

到了 coding benchmark，尤其是 SWE-bench 这种仓库级任务，这个理解就太简单了。

一个模型在 SWE-bench 上的成绩，至少混合了下列因素：

模型本身能力；
agent 框架；
prompt 设计；
文件搜索工具；
是否能跑测试；
是否允许多轮尝试；
是否有代码库索引；
是否有 reviewer / verifier；
token budget；
timeout；
Docker 和依赖环境稳定性；
patch 应用和测试脚本。

这就是 harness 污染或 scaffold 污染的问题。

同一个模型，放进不同 agent 系统，分数可能差很多。同一个 benchmark，换了工具调用方式、prompt、测试环境，结果也可能不完全可比。

SWE-bench Verified 官网自己也提醒，mini-SWE-agent v1 和 v2 的结果不一定能直接比较，因为 v2 使用 tool calling，v1 是从模型输出里解析动作。一个评测框架的小变化，都可能影响模型最终表现。

所以当你看到“某模型 SWE-bench 提升 5 个点”时，第一反应不应该是“这个模型一定聪明了 5 个点”，而应该进一步探究评测用的 scaffold、工具、token budget、timeout、题集版本、prompt、是否允许多轮尝试，都会影响最后成绩。

另一个老问题：泄题

正如我们在历史回顾和横评总表中多次提到的，代码 benchmark 特别容易被污染。

HumanEval 和 MBPP 这类经典题库已经公开多年，GitHub、论文、博客、教程、模型评测仓库里到处都是。模型训练数据里是否见过题目、答案、题解，很难完全确认。

污染不一定是厂商故意作弊，考虑到现代LLM训练数据量需求的激增和来源的多样，也可能是 benchmark 本身进入了预训练数据、题解和讨论进入了训练数据、别人用 benchmark 生成的合成数据进入了训练数据、厂商用 benchmark 做模型选择和调参，长期形成过拟合等原因。

这也是 LiveCodeBench 和 SWE-bench Live 这类动态 benchmark 变重要的原因。它们尽量用新题，或者按题目发布时间切分，让模型在训练截止时间之后的新问题上接受测试。

SWE-bench Pro 也在尝试降低污染风险。它的 public 子集使用强 copyleft / GPL 类仓库，因为这类代码进入商业模型训练集的法律风险更高(注意只是风险)；private commercial 子集来自合作创业公司的私有代码库，更不可能提前出现在训练数据里。

单这依然不能保证绝对干净。

高分低能陷阱

还有一个容易被忽略的问题：SWE-bench 系列来自 GitHub issue，因此它天然更偏“维护型工程”而不是“创造型工程”。

Issue 里当然不只有 bug，也有 feature request、enhancement、性能优化和行为调整；但它的基本范式仍然是“给定现有代码库和相对明确的问题，生成一个能通过测试的 patch”。

所以，单纯的 SWE-bench 分数高，说明模型更可能擅长在已有项目里定位问题、修改代码、通过测试；但这不能直接证明它擅长从 0 到 1 设计新功能、做产品判断或搭建全新系统。

这类测试边界和使用边界的“漂移”，我统称为“高分低能”陷阱。如果不了解评测集本身的构造和目的，就会盲目的以为这是一个综合分数，而忘了多数评测其实只能验证一个极小的能力边界。

很多时候我们实测模型会遇到模型Benchmark分数提高，但模型是通过反复写bug、修bug的方式完成任务，与其说是“作弊”，倒更像是模型为了得高分的“应试”考生。

Benchmark 可靠吗？

上面提到了 Benchmark 的缺点，那 Benchmark 到底能用吗？

回答是，能：

coding benchmark 最大的价值，是帮你筛掉明显不合格的模型.

针对需要落地、尤其是企业用户，我们建议按照下面的逻辑进行筛选：

聊聊SWE-Bench Pro：Claude Mythos 5/Fable 5 的 80.3 分，真的可信吗？图5

1. 先排除明显掉队的模型

如果一个模型在主流 coding benchmark 上全面落后一档，比如 HumanEval / MBPP 都不行，LiveCodeBench 明显低，SWE-bench Verified / Pro 跟不上，Terminal-Bench 也完全没表现，那它大概率不是一个适合 coding 的模型。

Benchmark 最可靠的用途，就是帮你排除明显弱的选项。

如果一个模型连大家都已经普遍能过的线都过不了，就不要为它找借口了，直接 Pass。