大家好,我是库森。
最近 OpenAI 发布了 GPT-5.5,目前向 ChatGPT 的 Plus、Pro、Business 和 Enterprise 用户开放,同步上线 Codex,API 很快跟进。

不得不说,这次大家第一时间讨论最多的,不是跑分,而是 GPT-5.5 写东西终于没那么"AI 味"了。
用过 GPT 系列的都知道,以前让它写东西,那股端着的劲儿怎么都去不掉。什么"稳稳的接住"、"如果你要",改 prompt 也没用。这次明显好多了,跟真人比还有差距,但进步肉眼可见。
关键是,编码能力同时也上去了。以前行业里有个隐性共识,模型要么聪明但说话像机器人,要么说话自然但能力拉胯。GPT-5.5 证明这两件事不矛盾。反观 Opus 4.7,最近被不少人吐槽"变得不会说人话了",Anthropic 为了让它少废话,在 system prompt 里硬塞了字数限制,结果适得其反。
跑分方面整体提升还是很努力的,多个基准刷新纪录,数学、命令行工作流、网络安全这些都拉开了差距。唯一输的是 SWE-Bench Pro,Claude 还是比 GPT-5.5 高几个点,不过 OpenAI 标注了该基准存在记忆化问题。前端能力据反馈还是差点意思,这块目前 Claude 做得更好一些。
Codex 也跟着一口气推了五个升级,说白了就是从"写代码的工具"往"帮你干活的智能体"走,能直接操控浏览器点页面、填表单、截图迭代;能在 Office 和 Google Drive 里直接生成文档和 PPT;能操控电脑跨应用传上下文;还加了自动审查模式,遇到高风险操作才暂停检查,不用每步都点确认了。gpt-image-2 也集成进来了,做原型顺手出配图。
但是价格,真的绷不住了。API 定价史无前例地达到了 $5/$30 每百万 token(输入/输出),这个价格是 GPT-5.4 的两倍,输出比 Opus 4.7 还要贵 20%。Token 还在涨价,OpenAI 说 token 效率提升能对冲,但账单是实打实的。上下文窗口倒是给到了 100 万 token。
你说巧不巧,GPT-5.5 刚发布,Anthropic 就公开承认 Claude 最近确实变笨了。三个 bug 叠在一起搞的,3 月把默认思考时长调短了,用户直接感觉变笨;缓存优化写出 bug,每轮都在清思考记录,Claude 越干越不记得自己在干嘛;4 月又在 system prompt 加了"回复不超过 100 词"的限制,Opus 4.6 和 4.7 都掉了 3%。三个问题影响的用户群和时间段都不一样,合起来就是"Claude 好像变笨了但说不清哪里笨",定位花了一周多。
不是模型本身不行,是工程和运维翻车了。但对用户来说,原因不重要,体验变差就是变差。
好消息是 Anthropic 为所有订阅用户重置了用量,算补偿。
Anthropic 之前把 Mythos 包装成神秘核弹,结果 Opus 4.7 翻车翻在了这种低级问题上。这个时间点,可能就是 OpenAI 的翻盘窗口了。
我是库森,我们下期再见!
END

往期精选:

请点下【♡】给小编加鸡腿
