实测「神话」级模型 Fable 5:强者世界里的最强者 | AI 上新

极客公园 2026-06-10 17:23
实测「神话」级模型 Fable 5:强者世界里的最强者 | AI 上新图1
Coding 和 Agent 非常强

作者|金光浩

编辑|靖宇

今天凌晨,

四月份的时候,Mythos 这个代号就已经在圈子里流传,但当时它只对四十来家网络安全机构开放,普通人不给用。很多人当时的判断是:这玩意儿能力太强,Anthropic 不敢放。

结果今天,他们用一个折中方案把门打开了「Claude Fable 5」——第一个面向公众开放的 Mythos-class 模型。

Fable 5 的底层模型架构和内部那个 Mythos 5 是同一个,: Fable 5 里塞了一层安全分类器,遇到特殊问题就回退给 Opus 4.8 处理。

我熬夜把它跑了一晚上,有几个发现想跟你聊聊。

先说结论:在编程和 Agent 这两件事上,它确实是目前我用过最强的,没有之一。

但「最强」这两个字背后,还藏着一些 Anthropic 不会主动告诉你的东西。


01

它把什么指标放在了最前面


看一个模型发布有哪些能力更新了,其实有个很取巧的办法:看厂商把哪个指标放在第一位。

因为模型厂商心里门儿清,自己这一代最想让你记住的是什么能力,就会把那个数字摆在最显眼的地方,往往也是对比友商最有震撼力的。

而 Fable 5 的榜单,开头两个就是 SWE-bench Pro(coding)和 FrontierCode(agent)

SWE-bench Pro 它拿了 80.3%,Opus 4.8 是 69.2%,GPT-5.5 是 58.6%。这个差距已经不小了。

实测「神话」级模型 Fable 5:强者世界里的最强者 | AI 上新图2

但个人认为,SWE-bench Pro 这个指标有点水,更多的是衡量模型有多「听话」,而不代表它在真实世界处理问题的能力。

真正让我在意的指标是 FrontierCode

这个指标最近在 X 上特别火,它是 Cognition(就是做 Devin 那家)今年才推出的新基准,它不测「代码能不能跑通」,而是测「代码能不能被真实的开源项目接受、合并进主干」。

任务是从 Celery、Mattermost 这些项目里挑出来的,每一道题专业开发者要打磨四十多个小时。最难的 Diamond 那 50 道题,Opus 4.8 只能做对 13.4%,GPT-5.5 是 5.7%。

实测「神话」级模型 Fable 5:强者世界里的最强者 | AI 上新图3

FrontierCode 指标|图片来源:anthropic


Fable 5 多少?29.3%,差不多是第二名的两倍多,可谓是「遥遥领先」。

要知道在这个榜单上,能多做出几道题都极其困难,因为它考的不是「会不会写」,而是「写出来的东西配不配进一个有几十万行代码、有自己规范和架构的真实工程」。

Anthropic 还放了个 Stripe 的案例:在一个 5000 万行的 Ruby 代码库里,Fable 5 用一天时间完成了整个库的迁移,而这件事原本要一整个团队干两个多月。

第一眼看到这些数字,说实话我是有点麻木的,因为这两年发布会上的 SOTA 已经太多了。

但当我自己上手体验了一整晚「Fable 5」之后,那种麻木的感觉,瞬间没了。

原来,这就是「强者」的世界吗?


02

它能直接「看懂」和「秒杀」难题了


回归现实的工作场景,我觉得 Agent 有几个能力比较重要:

一是指令遵循能力(逻辑推理、多步规划);二是审美生成能力(视觉、创意产出的品味)。

它们分别对应着当下 AI 应用最多、商业化最好的几个领域:

1、指令遵循能力。

Coding 领域:2025 年最火的 Curosr、2026 年最火的 Claude Code、Codex。

Work 领域:2025 年最火的 Manus、2026 年日活最高的 WorkBuddy。

2、审美生成能力:

Design 领域:2025 年最火的 Lovart。

Movie 领域:2026 年最火的 Seedance2.0、GPT image2.0。

所以我先测的是今年的数学「高考卷」:数学好,逻辑和推理能力大概率就强。

实测「神话」级模型 Fable 5:强者世界里的最强者 | AI 上新图4

2026 数学高考题|图片来源:linux.do


但我特意没用大家常见的那种测法:

前段时间高考结束,很多博主测大模型解高考数学卷,流程是这样的:先把试卷 PDF 转成 LaTeX 格式,再把整理好的文本喂给模型。

这个流程其实特别别扭:你想想,如果在现实里,你只是想问大模型一道题,还得先花半个钟头把图片里的公式、图形一个个抠成 LaTeX,那这个「AI 帮你解题」的价值基本就没了。等你转完格式,自己都快把题做出来了。

之前博主「卡尔的 AI 沃茨」的测评结果,GPT5.5 面对高考卷能拿 150 分,Opus 4.8 是 148 分,顶级的大模型都是清北的水平。

实测「神话」级模型 Fable 5:强者世界里的最强者 | AI 上新图5

大模型数学高考水平|图片来源:linux.do


然后我拿 Fable 5 试的方式很简单:直接把试卷拍照截图扔进去,然后一句话提示让它做。

实测「神话」级模型 Fable 5:强者世界里的最强者 | AI 上新图6

Fable 5 做高考题|图片来源:zenmux


它真的就直接读懂了。

比如像第 15 题里的几何图像、辅助线,它也能全看明白,然后一道一道往下解。

实测「神话」级模型 Fable 5:强者世界里的最强者 | AI 上新图7

Fable 5 做高考题过程|图片来源:zenmux


最后我对了博主「集英苑」分享的参考答案:Fable 5 也是 150 满分,又一个姚班候选人

当然,数学测的是单步推理的天花板,所以我又测了它的 Agent 能力。

这一点上,Fable 5 给我的体感是质变级的:

最近我在做一个项目,也是在设计一个 Agent,但是有个 Codex 的 GPT 5.5 解决不了的 bug,于是我拿 Claude Code + Mythos 试了下,发现可以一遍解决。

在社区里,这一点,我发现有人也和我体感相同:

Ethan Mollick(沃顿商学院教授)提前体验了这款模型,他也做了个测试:他让 Fable 5 自主构建一张等时线地图,它需要调用多个子代理,去收集 2200 多条航班信息和铁路数据,然后整合、清洗、可视化。

整个过程模型连续工作了将近 10 个小时,没有人类介入。他后来还让它从零开发了一个研究工具,9.5 小时自主完成,最终产出了 19 页设计文档外加可运行的代码。

实测「神话」级模型 Fable 5:强者世界里的最强者 | AI 上新图8

Ethan Mollick 对 Fable 5 的评价|图片来源:oneusefulthing.org


Simon Willison(Django 联合创始人)也提前体验了这款模型,他是这样评价的:「挑战在于找到它无法完成的任务。」他让 Fable 5 做了好几件 Opus 4.8 之前搞不定的事,给自己的 LLM 工具库加暂停/恢复机制,Fable 5 也是全部一次性交付,前后大概 5.5 小时。

实测「神话」级模型 Fable 5:强者世界里的最强者 | AI 上新图9

Simon Willison 对 Fable 5 的评价|图片来源:simonwillison.net


Fable 5 在 Agent 能力上,整体给我的感受是这样的:

以前的模型像个很聪明的实习生,你得把任务拆成小块一步步喂;Fable 5 更像一个你把目标甩给他、第二天早上来收活儿的独当一面的大厂「大头兵」:它能自己拆任务、自己调子代理、自己验证中间结果、自己处理异常。

这种体验,只有 GPT 5.5 让我体验过。而 Fable 5,又把这种体验往前推进了。


03

Fable 5 让我失望的部分


我测的第二个部分是审美,但是这一点上我比较失望。

按惯例我跑了金门大桥和那只鹈鹕(pelican)的 SVG 测试,这一块我拿了 GPT-5.5 作为参考对比。

实测「神话」级模型 Fable 5:强者世界里的最强者 | AI 上新图10

左图 Fable 5,右图 GPT-5.5|图片来源:zenmux


实测「神话」级模型 Fable 5:强者世界里的最强者 | AI 上新图11

左图 Fable 5,右图 GPT-5.5|图片来源:zenmux


不过说实话,结果都挺一般的。他们画出来的东西不能说难看,但也谈不上惊艳,我没有那种「哇」的瞬间。失望。

所以我个人的体感:这两个顶级模型的审美,也大概都和国产顶尖模型差不多一个水平。

这反而让我对这一代顶级大模型的优化方向更清楚了:它这次的主线,几乎全压在了商业价值最高的 coding 和 agent 上。审美、创意这些不那么好变现的能力,明显不是它这次想着重优化的范畴。

不过,从商业的角度,这确实也是个很务实,甚至有点冷酷的选择。

聊到这里,我也想聊一下让我比较失望的 Anthropic 的「护栏」:安全分类器。

Anthropic 给的官方说法很正面:因为 Mythos 级别能力太强,在网络安全、生物这些高危领域可能被滥用,所以加了一道分类器,遇到危险问题就回退给更保守的 Opus 4.8 来答。他们说这是「我们敢把 Fable 放出来的核心原因」。

听起来它们很负责任。

但你去看那张榜单的脚注会发现一个细节:带星号的那几项测试(网络安全的 ExploitBench、生物的 BioMysteryBench),Fable 5 的真实分数其实更高,但因为「安全回退」机制,公开版本会掉到接近 Opus 4.8 的水平。

实测「神话」级模型 Fable 5:强者世界里的最强者 | AI 上新图12

Fable 5 的 benchmark 指标|图片来源:anthropic


换句话说,最强的能力被它自己锁住了一部分,只留给内部的 Mythos 5 和少数 Glasswing 合作伙伴。这对于消费者而言,本质和前段时间 Methods 公开没什么区别:只是给你看,不给你用。

这层「护栏」当然有真实的安全考量。但它客观上还干了两件事:

一是维持了 Anthropic 在最高端能力上的技术垄断,把真正的「神话」留在自己手里;二是让外部大模型公司很难通过提问去逆向、去蒸馏它最核心的那部分能力。

「道德」的外衣下面,往往也隐藏着「利益」的目的,这两件事常常一起出现。

官方说这个「护栏」超过 95% 的对话,不会触发,但社区的体感显然不是这样:

Reddit 上已经有一大堆人在骂这个分类器误判太狠了,有人发个猪肉拉面的购物清单就会被拦,有人问句绵羊的生物学常识被降级,甚至有人就打了个「嗨」也被回退。


04

它真正改变的,是「能做的事」的边界


说到这,我反而不太想纠结 benchmark 了:

我在想一个问题:Fable 5,到底让什么变得「可能」了。

过去有很多任务,是模型够不着的。不是它笨,而是任务的链条太长、太复杂,跨几十个步骤之后它就乱了、忘了、崩了。这些任务以前你只能自己干,或者花大价钱请人干。

Fable 5 这种级别的模型,把这个「够得着」的圈子又往外扩了一层:原本不可能的事,现在变成了有可能。

这就引出一个我觉得 2026 年最大的信息差:

舍得在模型上花钱的人做到的事,和不舍得花钱的人之间,差距正在指数级拉大。

实测「神话」级模型 Fable 5:强者世界里的最强者 | AI 上新图13

karpathy 对 Fable 5 的评价|图片来源:X


很多人一看 Fable 5 的定价就劝退了:每百万输入 token 10 美元,输出 50 美元,是 Opus 4.8 的两倍,是永久降价之后的 Deepseek-V4-pro 的 50 倍。

贵,是真贵。有人在 200 美元一个月的 Max 套餐上,用了不到半小时就把额度跑光了。

但你换个场景算这笔账,你反而会觉得很划算。

请一个数学家教,一小时 500 块。而 100 万 token,按现在的价格还不到 500 块。一整套高考数学卷,让模型给你讲到彻底明白,花的钱比请一次家教还少,而且它不会累、不会赶时间、半夜两点也在。

贵和便宜,从来不是看绝对价格,而是看你把它放进了什么场景:放错地方,再便宜也是浪费;放对地方,再贵也划算得吓人。

归根结底,如果场景选对了,模型费用是投资,不是消费:你买的不是 token,是自己能力边界的外扩。

而对于掌握了 Fable 5 这种工具的人,也许最大的瓶颈不再是模型,而是自己驾驭模型的能力。


05

国产模型下半年的 KPI,藏在 Harness 里


最后我想顺着这个,聊点 Fable 5 可能对大模型领域产生的更深远的影响。

前阵子 Claude Code 源码泄漏,大家拆开一看,Harness 工程做得相当复杂。但 Anthropic 的 Claude Code 工程师 Boris Cherny 曾经说过一句很反直觉的话:未来的 Claude Code,可能只需要 100 行代码。

这话听着矛盾,但背后底层的逻辑非常之有意思:

Harness 工程的本质,是对大模型能力的一种「逆向补全」。模型哪里弱、哪里容易崩,你就用工程框架去兜住它、纠正它。所以模型越弱,Harness 就得越厚、越复杂;反过来,模型越强,Harness 就该越简单。因为很多原本需要外部框架去硬掰的事,模型自己就能想明白了。

所以 Fable 5 出来之后,harness 工程的逻辑也变了,感兴趣的可以读 Anthropic 内部人写的一篇文章:《Designing loops with Fable 5》。

实测「神话」级模型 Fable 5:强者世界里的最强者 | AI 上新图14

《Designing loops with Fable 5》|图片来源:X


我在测 Fable 5 的时候有个特别直接的感受:它经常用更少的 token,就解出了一个更复杂的任务,而且答得比别的模型更对。这说明它把越来越多原本要靠外部工程去补的能力,内化成了一种「直觉」。

而这恰恰是国产模型下半年最该想清楚的事。

现在的局面有点残酷:Fable 5 这种模型,能力比你强一截,价格是你的 50 倍。它站在「强者」那一侧,用绝对的能力定一个高得离谱的价。

国产这边大概率会走另一条路。以 DeepSeek 为首的 AI 大善人(普惠派),会想办法把能力追到持平,然后把价格打到对方的十分之一甚至更低。这条路没错,过去一年 DeepSeek 也确实把价格打下来了不少。

但我心里始终有个隐隐的不安:国产模型比过去强了很多,这是事实。可不知道为什么,我很少有那种「它又进步了一大步」的兴奋感。

Fable 5 出来之后,我看清了这背后的真相:我们一直在追平、在降价、在做性价比,却很少有哪一刻,是我们先一步把某件「不可能的事」变成了「可能」。这个剧本过去两年重演了很多次,国产模型其实一直在进步,只是每次抬头,天花板又被推高了一截,这大概就是追赶者注定的命运。

所以当 Fable 5 出来之后,今年国产模型的 KPI 又被改了:在 2026 还剩的半年时间里,追上 Fable 5。

这个行业的格局越来越清晰:最强者定义标准、吃走最高利润;追赶者追平能力后打价格战,吃份额。但追赶者的悲哀在于——你每追平一次,前面的标准又被刷新一次。

对我们普通人来说,结论反而简单:天花板在涨,但梯子也在变长。

现在的问题不是「够不够得着」,而是「你愿不愿意伸手」。

Fable 5 已经把梯子递到面前了:接下来的事,它帮不了你。

*头图来源:anthropic
本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

极客一问
你会顶住巨量 Token 消耗压力
用 Fable 5吗


实测「神话」级模型 Fable 5:强者世界里的最强者 | AI 上新图15
实测「神话」级模型 Fable 5:强者世界里的最强者 | AI 上新图16

实测「神话」级模型 Fable 5:强者世界里的最强者 | AI 上新图17
实测「神话」级模型 Fable 5:强者世界里的最强者 | AI 上新图18

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI
more
CVPR 2026 盘点|看清视觉 AI 的下半场
英伟达直洽金居开发:HVLP4铜箔成AI服务器供应链新瓶颈
调研揭示电信行业 AI 进展:网络与自动化引领发展,投资回报率持续攀升
AI开卷高考!夸克发布专业Agent,要让志愿规划服务人人可享?
动动嘴获得AI硬科技深度内容?雷科技Lite接入微信AI生态
温控架构重构:AI 算力时代,液冷已成必答题
能自动干活的AI浏览器,永久免费,来自美团
阿里QoderWork实测:AI实习生已上岗,但还当不了正式员工
2026年高考志愿怎么填报?百度用“AI+真人专家”助你选对未来
AI“芯片牧羊人”崛起:博通&Marvell 成 AI浪潮最大幕后赢家!
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号