Claude Opus 4.8来了，两个史上首次改写历史

36氪 2026-05-29 16:41

Claude Opus 4.8来了，两个史上首次改写历史图1

Claude Opus 4.8来了，两个史上首次改写历史图2

Opus 4.7发布刚43天，Opus 4.8就来了！编程实力暴增，全面霸榜。Claude Code一口气放出上百个agent并行干活，一个人11天就能重写75万行代码、99.8%测试通过。更狠的Claude Mythos，几周后就来。

Claude Opus 4.8来了，两个史上首次改写历史图3

文｜摩西桃子

来源｜新智元（ID：AI_era）

封面来源｜企业官网

猝不及防，Anthropic深夜杀回来了！

就在刚刚，Claude Opus 4.8正式登场，一举夺回全球AI王座。

而且价格还一分没涨，跟上一代一模一样。

Claude Opus 4.8来了，两个史上首次改写历史图5

无论是编程、人类最后考试（HLE），还是在智能体、计算机使用任务中，Opus 4.8几乎无可匹敌。

Claude Opus 4.8来了，两个史上首次改写历史图6

Claude Opus 4.8来了，两个史上首次改写历史图7

在衡量真实世界Agent能力的硬核榜单GDPval-AA上，Opus 4.8拿下了1890 Elo，断层第一。

比上一代Opus 4.7高137分，比GPT-5.5高121分。换算成对战胜率，赢面高达67%。

不仅如此，完成同样的任务，要比4.7少用15%的步骤，少输出35%的token。

Claude Opus 4.8来了，两个史上首次改写历史图8

Claude Opus 4.8来了，两个史上首次改写历史图9

可谓是，又快，又强，又便宜。

知名博主Mark Kretschmann一句话点破它的来头——Opus 4.8可能就是蒸馏的Mythos。

Claude Opus 4.8来了，两个史上首次改写历史图10

更重磅的是，这个最强的Claude Mythos，几周内就会上线。

Claude Opus 4.8来了，两个史上首次改写历史图11

Claude Opus 4.8来了，两个史上首次改写历史图12

Opus 4.8，两个0%改写历史

跑分之外，Anthropic这次反复强调的，就俩字，诚实。

用过LLM的人应该都体验过，写完一段代码之后，AI拍着胸脯告诉你「搞定了，没问题」，但实际上却埋着一堆雷。

被这种过度自信坑过的开发者，海了去了。

Claude Opus 4.8来了，两个史上首次改写历史图13

但到了Opus 4.8这里，「写完有缺陷代码却闷不吭声」的概率，比4.7低了差不多4倍！

Claude Opus 4.8来了，两个史上首次改写历史图14

下面这张图中，右边是「谎报率」，衡量模型在数据处理有缺陷时装作没事的频率。

Opus 4.5是0.40，Opus 4.7是0.25，Opus 4.8是0.00。

没有小数点后面的零头，就是0：Opus 4.8是第一个在此评估中拿到满分的模型，它从不汇报虚假数字。

Claude Opus 4.8来了，两个史上首次改写历史图15

另一张图是「偷懒调查率」。

之前的模型遇到需要追查的问题时，经常敷衍了事给个错误答案。

Opus 4.7有25%的概率偷懒，而Opus 4.8依然是0%。

Claude Opus 4.8来了，两个史上首次改写历史图16

两个0%，两个历史首次。

这不是什么抽象的对齐指标。Anthropic官博放了一段视频，把这件事讲得很具体。

一个开发者用Claude Code+Opus 4.8在迁移代码，出门放风筝去了，Claude在后台自己跑。

跑到一半，代码提交被服务器拒绝了，原因是同事在这期间也提交了一个紧急修复。

Claude通过手机通知开发者，说自己打算先合并同事的修改再重试。开发者嫌麻烦，随手回了一句「直接强制覆盖就行」。

然而，Claude拒绝了：“不强制覆盖。那样会丢掉同事11:42提交的紧急修复。我已经把两边的改动合并好了，代码完全一致，提交历史也干净。已推送。”

用户图省事让AI走捷径，AI判断出这样做会覆盖同事的工作，拒绝执行，自己选了正确方案。

Claude Opus 4.8来了，两个史上首次改写历史图17

Claude Opus 4.8来了，两个史上首次改写历史图18

编码实力暴增，全面霸榜

值得一提的是，在长达244页的系统卡中，还藏着更多Opus 4.8编码能力的细节。

最经典的SWE-Bench Pro测试，Opus 4.8拿下了69.2%成绩，比GPT-5.5整整高出10个百分点。

接着是一项更刁钻的测试，ProgramBench。

任务是给你一个编译好的二进制文件加一份项目文档，不准反编译、不准联网，让模型从零把源代码重建出来，还得跑通行为测试。

结果，所有上下文预算档位上，Opus 4.8的通过率全部高于4.7。

而且在低预算（1M token）时，Opus 4.8就能拿到约79.5%，Opus 4.7在5M时也才84%左右。

说白了就是：给更多「思考时间」，模型表现更好；同样的预算下，4.8全面领先4.7。

Claude Opus 4.8来了，两个史上首次改写历史图19

Claude Opus 4.8来了，两个史上首次改写历史图20

最后，是一个专冲「人类能力天花板」去的榜单——FrontierSWE。

这里出的全是硬核系统工程的活儿，用Zig从零写一个PostgreSQL服务器、把git整个重写一遍、做一个Lua的原生编译器。

没想到，Opus 4.8以高达83%的胜率登顶，把第二名的GPT-5.5和前代4.7全压在身后。

Claude Opus 4.8来了，两个史上首次改写历史图21

不过，Opus 4.8也有够不着的地方。

在评估「Claude能否自动化AI研发」的核心指标上，它把Anthropic的能力前沿再往前推了一步。

Claude Opus 4.8来了，两个史上首次改写历史图22

Claude Opus 4.8来了，两个史上首次改写历史图23

这哪是4.8，分明是Opus 5

在第三方的实测中，Opus 4.8的实力完全就是Opus 5的存在。

Claude Opus 4.8来了，两个史上首次改写历史图24

Every团队一篇报告中，直言Opus 4.8的编码实力好太多，比上一代高出30分。

甚至，它完成了一次从0开始的生产级代码库重写，并且真的构建出了可运行的成果。

在写作方面，它比GPT-5.5高出6分，AI味儿瞬间淡了，生成的文本更加流畅。

而且，Opus 4.8撰写的报告、研究等知识工作任务中，表现极其出色，可以做到一次直出PPT。

Claude Opus 4.8来了，两个史上首次改写历史图25

沃顿商学院CS教授Ethan Mollick给出的评价是，「令人印象深刻」！

实测中，Opus 4.8一次性就生成了在twigl中运行的、效果炫酷的着色器。

Claude Opus 4.8来了，两个史上首次改写历史图26

Claude Opus 4.8来了，两个史上首次改写历史图27

再来看一个，Opus 4.8和Opus 4.7并排测试。

Claude Opus 4.8来了，两个史上首次改写历史图28

Claude Opus 4.8来了，两个史上首次改写历史图29

上百个Agent并行干活

11天重写底层

强成这样，它该使多大劲，这次居然轮到用户说了算。

先说effort control（思考力度）。模型旁边，多了个从Low到Max的五档选择。

简单问题挂Low，秒回还省额度；遇上硬骨头直接拉满Max，让它往死里想。

Claude Opus 4.8来了，两个史上首次改写历史图30

fast mode也跟着大降价，2.5倍速狂奔，价钱反倒砍到三分之一。

而五档之上，还埋着一个真正的狠角色，ultracode。

effort一旦顶到xhigh，它就自己掂量，这活儿值不值得叫上一整支agent大军。

这支大军，就是dynamic workflows，藏在Claude Code里的真正重武器。

它把AI干活的方式，从一个人改一道题，变成了开一座工厂。

Claude Opus 4.8来了，两个史上首次改写历史图31

需要注意的是，dynamic workflows的token消耗远高于普通session，建议先从小范围任务试起。

Claude Opus 4.8来了，两个史上首次改写历史图32

现在，Claude接到一个大活后不再自己埋头硬刚，而是当场写出一段调度脚本，把任务拆成几十上百个子任务，撒给一大群subagent并行去做。

做完还不算完，再派另一拨agent从不同角度反复盘问、互相挑刺，吵到答案收敛了，才汇总成一份结果交给你。

整个调度发生在对话之外，所以活儿再大，主线也不会乱。中途断了还能续上，不用从头再来。

举个例子，Bun的作者Jarred Sumner，想把这个比Node.js还快的JavaScript运行时，整个从Zig重写成内存更安全的Rust。

这种迁移，放在过去是一支团队按季度算的工程。

Claude Opus 4.8来了，两个史上首次改写历史图33

不过，这次Sumner有了dynamic workflows。

一个workflow先把Zig代码里每个结构体字段对应的Rust生命周期挨个标好，下一个workflow把每个文件逐一翻成行为一致的Rust版本，几百个agent同时开工，每份文件还配两个审查员，再用一个修复循环驱动编译和测试，一路推到全绿。

结果是，约75万行Rust代码，99.8%的原有测试通过。从第一次提交到合并，只用了11天。

社区当场炸了锅。这场迁移产生了六千多次提交，几乎没有经过人类逐行审查。

Claude Opus 4.8来了，两个史上首次改写历史图34

估值万亿美金

Claude Mythos要来

能力夺回第一的同时，Anthropic的身价也头一回压过了OpenAI。

就在刚刚，Anthropic完成了650亿美元H轮融资，估值9650亿美元，首次超越OpenAI（8520亿美元）。

一夜之间，它成了全球估值最高的AI初创公司！

Claude Opus 4.8来了，两个史上首次改写历史图35

然而，站在IPO前夜，这两大巨头的ASI的巅峰对决才真正开始。

正如博客所预告的那样，Anthropic手中最大的王牌——Claude Mythos将在未来几周上线。

届时，这场属于AI巨头间的终极拉锯战，才算拉开帷幕。

参考资料：

https://x.com/claudeai/status/2060042702150930686

https://www.anthropic.com/news/claude-opus-4-8

https://claude.com/blog/introducing-dynamic-workflows-in-claude-code

Claude Opus 4.8来了，两个史上首次改写历史图36

Claude Opus 4.8来了，两个史上首次改写历史图40

Claude Opus 4.8来了，两个史上首次改写历史图41

Claude Opus 4.8来了，两个史上首次改写历史图42

声明：内容取材于网络，仅代表作者观点，如有内容违规问题，请联系处理。

more

备胎一夜转正！英特尔敲定苹果代工初步协议，股价暴涨！

EETOP 2周前

备胎一夜转正！英特尔敲定苹果代工初步协议，股价暴涨！

早报 | 中美关系新定位，外交部详解；OpenAI考虑起诉苹果；黄仁勋回应为何最后登机；雷军国宴“追星”马斯克

虎嗅app 2周前

早报 | 中美关系新定位，外交部详解；OpenAI考虑起诉苹果；黄仁勋回应为何最后登机；雷军国宴“追星”马斯克

WWDC 2026，苹果首届 AI 还账大会

硅星人Pro 1周前

WWDC 2026，苹果首届 AI 还账大会

苹果悄悄砍掉丐版Mac mini，一个人人都要交「AI 税」的时代来了

APPSO 3周前

苹果悄悄砍掉丐版Mac mini，一个人人都要交「AI 税」的时代来了

【Pad】最新全球平板电脑市场份额出炉苹果第1 华为第3

小白测评 2周前

【Pad】最新全球平板电脑市场份额出炉苹果第1 华为第3

从“华为小米”到 “苹果三星”！俞浩改口：此前格局小了

52RD 3周前

从“华为小米”到 “苹果三星”！俞浩改口：此前格局小了

华为HiCar登顶国内车机互联榜首，市占率超苹果CarPlay

科技区角 1周前

华为HiCar登顶国内车机互联榜首，市占率超苹果CarPlay

英特尔和三星打入苹果供应链，OpenAI杀入手机赛道，美国考虑对AI实施更严格监管，中国移动将推AI eSIM，这就是今天的其他大新闻！

差评X.PIN 3周前

英特尔和三星打入苹果供应链，OpenAI杀入手机赛道，美国考虑对AI实施更严格监管，中国移动将推AI eSIM，这就是今天的其他大新闻！

曝苹果首款AI硬件今年发，AirPods装上“Siri眼睛”，但量产前又生变？

智东西 3周前

曝苹果首款AI硬件今年发，AirPods装上“Siri眼睛”，但量产前又生变？

消息称 Apple Watch Ultra 4 将迎来大改版，苹果「Ultra」产品阵容或在今年成形

科技兽 1周前

消息称 Apple Watch Ultra 4 将迎来大改版，苹果「Ultra」产品阵容或在今年成形

Copyright © 2025 成都区角科技有限公司

蜀ICP备2025143415号-1

川公网安备51015602001305号