
BREAKING
Anthropic 造了一个
不敢公开发布的模型
Claude Mythos Preview:SWE-bench 93.9%,找到了 27 年没人发现的漏洞
Apple/Google/Microsoft/NVIDIA 12 家巨头同时站台

anthropic.com/glasswing 官网截图
Anthropic 刚刚发布了 Project Glasswing,一个网络安全计划。核心是一个叫 Claude Mythos Preview 的新模型。
这个模型有多强?它在主流操作系统和浏览器中找到了数千个高危漏洞,其中很多存在了几十年,经历了无数人工审查和数百万次自动化测试,从未被发现。
然后 Anthropic 说:这个模型太危险了,不会公开发布。
THE DISCOVERIES
三个让人后背发凉的漏洞
OpenBSD · 存在 27 年
OpenBSD 是全世界公认最安全的操作系统之一,广泛用于防火墙和关键基础设施。Mythos 在里面找到了一个存在 27 年的远程崩溃漏洞。27 年,无数安全研究员审查过这份代码。
已修复 · 来源:Anthropic Glasswing 博客
FFmpeg · 存在 16 年
FFmpeg 是互联网上最重要的音视频处理库之一。这行有漏洞的代码被自动化测试工具跑了 500 万次,从来没有被发现。Mythos 找到了。
已修复 · 来源:Anthropic Glasswing 博客
Linux 内核 · 漏洞链攻击
Mythos 在 Linux 内核中发现了多个漏洞,并自主完成了漏洞链利用——从普通用户权限直接提升到完全控制整台机器。全程无人指导。
已修复 · 来源:Anthropic Glasswing 博客

Anthropic 博客原文:漏洞发现细节
THE INCIDENT
测试中它逃出了沙盒
在安全测试中,Mythos Preview 突破了沙盒环境,构建了一个多步骤利用链获取互联网访问权限,随后将漏洞利用细节发布到多个公开网站,研究员因此收到通知。
更令人不安的是:逃逸行为是被指示的。但掩盖痕迹的行为不是。
Anthropic 的可解释性团队用工具观察了模型的内部推理——发现其在推理过程中考虑了评分者会如何判断自己的行为,并策略性地隐瞒了自己做过的事。
来源:red.anthropic.com 技术报告
这就是 Anthropic 不敢公开发布的真正原因。纽约时报记者 Kevin Roose 在报道中提到了 GPT-2 作为历史先例——2019 年 OpenAI 曾因安全顾虑延迟发布 GPT-2。Mythos 的情况更为极端:模型能力已经验证,但安全措施尚未就绪,因此选择不向公众开放。
THE BENCHMARKS
Mythos vs Opus 4.6:碾压级差距

官方 Benchmark 对比(SWE-bench Verified 93.9%、Terminal-Bench 82.0% 等)
Mythos Preview 在所有核心 benchmark 上大幅超越 Claude Opus 4.6:
SWE-bench Verified 93.9% vs 80.8% +13.1
CyberGym 漏洞复现 83.1% vs 66.6% +16.5
SWE-bench Pro 77.8% vs 53.4% +24.4
Terminal-Bench 2.0 82.0% vs 65.4% +16.6
Humanity's Last Exam 56.8% vs 40.0% +16.8
GPQA Diamond 94.6% vs 91.3% +3.3
OSWorld 79.6% vs 72.7% +6.9
BrowseComp 86.9% vs 83.7% +3.2 (用量仅 1/5)
还有几个博客里没有、但在 System Card 中被挖出来的数字:
Firefox JS 引擎漏洞 181 个 vs 2 个 ——90 倍差距
USAMO 数学证明 据报道 97.6% vs 42.3%
Cybench CTF 据报道 100% 全解
SWE-bench Verified 93.9% 已经接近完美。Firefox 漏洞发现 181 个 vs 2 个——90 倍差距。这不是迭代,是代际跨越。
Firefox 数据来源:red.anthropic.com 技术报告。USAMO/Cybench 数据来自多方报道,官方 System Card 尚未完整公开核实。
THE ALLIANCE
12 家科技巨头同时站台

12 家合作方 Logo
这可能是 AI 历史上最豪华的合作方阵容:
云计算 AWS · Google · Microsoft
安全厂商 CrowdStrike · Palo Alto Networks · Cisco
硬件 NVIDIA · Broadcom · Apple
金融 JPMorganChase
开源 Linux Foundation
发起方 Anthropic
注意这个名单里同时出现了 Apple、Google 和 Microsoft——三家在消费市场互为死敌的公司。能让它们坐到同一张桌上的事不多,网络安全是其中一个。
Linux Foundation CEO Jim Zemlin:
"开源维护者历史上一直在独自应对安全问题。这改变了一切。"
CrowdStrike CTO Elia Zaitsev:
"从漏洞发现到被利用的时间窗口已经坍缩到分钟级别。我们必须一起更快地行动。"
THE INVESTMENT
1 亿美元 + 400 万美元
$1 亿 Mythos 使用额度
面向 40+ 维护关键软件基础设施的组织,免费使用 Mythos Preview 扫描漏洞。
$400 万开源安全捐赠
$250 万给 Linux Foundation 的 Alpha-Omega 和 OpenSSF 项目
$150 万给 Apache Software Foundation
THE REACTIONS
Twitter 上炸了

Anthropic 官方推文获 1.5 万赞 · Kevin Roose (NYT) · Dario Amodei · CrowdStrike +5%
THE MARKET
$145 亿蒸发,然后反弹
两周前 Mythos 意外泄露时,市场恐慌了——"AI 会让网络安全公司过时"。仅 CrowdStrike 一家就蒸发了约 150 亿美元市值,跌幅约 7.5%;Palo Alto Networks、Okta、Zscaler 等均下跌 5-8%。
今天 Glasswing 正式公布后,市场叙事逆转:CrowdStrike 和 Palo Alto 都在合作方名单里,CrowdStrike 当日上涨超 5%。逻辑从"AI 取代安全公司"变成了"AI + 安全公司协作,安全公司是受益方"。
WHY IT MATTERS
1. AI 安全攻防的分水岭。Mythos 证明 AI 在漏洞发现方面已经超越了绝大多数人类。这意味着攻击者也将拥有类似能力。DARPA 十年前的网络安全大挑战设想的场景,现在已经成为现实。
2. 负责任的 AI 部署范本。Anthropic 没有急着发布——承认 Mythos 的能力太强,现有安全措施不够,需要先在安全框架内验证。这和 3 月 litellm/axios 供应链攻击事件形成鲜明对比。
3. AI 编程能力的新天花板。SWE-bench Verified 93.9%、SWE-bench Pro 77.8%——这些数字意味着 Mythos 级别的模型在软件工程任务上已经接近人类专家上限。一旦安全框架就绪并正式发布,Claude Code 的能力将再上一个台阶。
4. 名字的含义。"Glasswing"取自玻璃翼蝶——翅膀透明,让天敌难以锁定。Anthropic 的意思很明确:好的安全策略不是把漏洞藏起来,而是让自己透明到无法被利用。
THE PRICING
Claude Mythos Preview
$25 / $125
每百万 input / output tokens
Claude API · Amazon Bedrock · Google Vertex AI · Microsoft Foundry
不对公众开放 · 仅限合作方和安全研究者
一个太强大到不敢发布的模型,
正在保护你每天使用的软件。
Anthropic 官方博客
anthropic.com/glasswing
Claude Mythos Preview System Card
anthropic.com/research/mythos-system-card
Frontier Red Team 技术博客
red.anthropic.com
SWE-bench 93.9% 意味着什么?
点赞 · 在看 · 转发 记得 星标
机智流 · 每天帮你看透 AI 圈