实测 GPT-5.3-Codex，OpenAI 史上第一个高危模型，连 API 都还不敢给我们

今天凌晨发布的 GPT-5.3-Codex 可以说是 OpenAI 对这段时间来，各种本地 Agent 爆火的一记重拳回击，当然主要是对 Anthropic 的反击。

配合 OpenAI 前几天的发布的 Codex 桌面版应用，Skill、Cowork、Claude Code，甚至是 Openclaw，这些热门工具能实现的功能，现在通过 Codex 的外壳 + GPT-5.3-Codex 模型能力，都能做到了。

实测 GPT-5.3-Codex，OpenAI 史上第一个高危模型，连 API 都还不敢给我们图1

在 Codex App 内可以直接选择 GPT-5.3-Codex 模型，也能选择深度思考的强度

和之前介绍 Cowork 的能力一样，我们也丢了一些类似的任务让 Codex 来完成，像是直接处理本地文件、各种格式转换、调用不同的 Skills 组合能力、做 Word/PPT/Excel、下载视频、开发 App……

GPT-5.3-Codex 的表现确实亮眼，相比较从头开始安装 Claude Code，对新人用户来说，现在直接下载 Codex 会是一个更好的选择。

这也是未来模型厂商的一种趋势，一开始大家都是从黑乎乎的命令行终端开始做本地 Agent，接着都慢慢回归到可视化的友好界面。

网上对 Codex 的评价在这几天也有了不少逆转，许多开发者从 Claude Code 转向 Codex，一些在国内的独立开发者也表示 Codex Plus 会员就可以用，而且还不会像 Claude 那般总是无情封号。

实测 GPT-5.3-Codex，OpenAI 史上第一个高危模型，连 API 都还不敢给我们图2

奥特曼更是激动的宣布，Codex 的活跃用户已经超过 100 万。在模型更新博客，也是毫不掩饰且留有余地的夸赞，

GPT-5.3-Codex 是我们第一个能够自我构建的模型。通过使用 5.3-Codex，我们能够以如此快的速度发布 5.3-Codex。

跟 Claude 团队用两周的时间，使用 Claude Code，100% AI 代码，搓出一个 Cowork 一样；还有 OpenAI 去年年底发布的文章，「使用 Codex 在 28 天内构建 Android 版 Sora」，Agent 的时代真的来了。

用 Codex 取代我的 ChatGPT 和 Claude Code

和大多数的本地 Agent 类似，无论是终端还是 Cowork，我们都是先选择一个工作文件夹。在 Codex 中，我们可以创建多个 Project，选择对应的文件夹，再进一步开始对话，Codex 把它们叫做 Threads 线程。

先用最普遍和简单的例子，我们添加了一个空的下载文件夹，然后点击开始一个线程，选择 GPT-5.3-Codex 模型；就像在 ChatGPT 里面对话一样，输入指令。

要求它帮我们下载一个 X 视频，Codex 会自动检查可用的 Skills 来处理，接着通过 yt-dlp 工具进行下载，这个视频有四个多小时长，Codex 会一直在对话框里自动更新下载进度。

实测 GPT-5.3-Codex，OpenAI 史上第一个高危模型，连 API 都还不敢给我们图3

GIF 图经过加速处理

视频下载后，我们还可以要求它提取视频的逐字稿，给我们一份双语版本的文档，最后让它把整个流程打包为一个 Skill，方便下次使用。

实测 GPT-5.3-Codex，OpenAI 史上第一个高危模型，连 API 都还不敢给我们图4

如果视频中有一些比较有意思的片段，想要裁剪视频，或者是把裁出来的视频转成 GIF 图，在 Codex 里都能做到。

例如，我们这里下载了一个视频，然后要求它把视频的 5s-25s 裁剪出来成为一个新的视频；得益于 GPT-5.3-Codex 的 Token 快速处理，整个过程不需要很长时间，反而更多是取决于本地电脑的硬件解码编码能力。

实测 GPT-5.3-Codex，OpenAI 史上第一个高危模型，连 API 都还不敢给我们图5

GIF 图经过加速处理

或者我们也可以直接要求它把视频的前 5s 转成一个 GIF 文件，并且确保大小在 10MB 以内，帧数可以自行调整，清晰度上将宽度控制在 640px。

很快，我们就能得到对应的 GIF 文件。更极端一点，还能让它把整个视频转成图片，每秒 30 帧，每一帧就是一张图。

实测 GPT-5.3-Codex，OpenAI 史上第一个高危模型，连 API 都还不敢给我们图6

这些对本地文件的直接处理，和 GPT-5.3-Codex 在 Terminal-Bench-2 测试集上的优异表现，让 Codex 基本上能满足各种生产力工具、效率工具的功能实现。

作为对比，同样是刚刚发布的 Claude Opus 4.6 在 Terminal-Bench 2.0 上得分是 65.4%，GPT-5.3-Codex 是 77.3%。

实测 GPT-5.3-Codex，OpenAI 史上第一个高危模型，连 API 都还不敢给我们图7

实测 GPT-5.3-Codex，OpenAI 史上第一个高危模型，连 API 都还不敢给我们图8

上下滑动查看更多内容｜图片来源：

https://x.com/neilsuperduper/status/2019486017703547309/

例如在这个文件夹中，有多张图片，我们首先是要求它根据图片内容，对这些图片文件进行重命名，并保持文件名不超过 20 个字母，不允许使用符号。

实测 GPT-5.3-Codex，OpenAI 史上第一个高危模型，连 API 都还不敢给我们图9

GIF 图经过加速

自动修改完成后，我们还能要求他对这些图片进行拼接，无论是垂直拼接还是水平，调用对应的工具，Codex 都可以做到。

实测 GPT-5.3-Codex，OpenAI 史上第一个高危模型，连 API 都还不敢给我们图10

和 Claude Skills 一样，Codex 也能安装 Skills 市场上丰富的技能，并且在应用内，就已经提供了包括 pptx、xls、word、canvas、notion 在内的多款技能。

实测 GPT-5.3-Codex，OpenAI 史上第一个高危模型，连 API 都还不敢给我们图11

回到基础的编程能力，升级后的 GPT-5.3-Codex 表现也比 GPT-5.2 要好上不少。我们直接要求它写一个「每日一词」的 App。和在 ChatGPT 里面直接用 Canvas 给我们一个带不走的网页不同，Codex 能在本地从零开始，完成项目，然后使用 Vercel 或 Cloudflare 等 Skills 部署到网页上。

这里我们选择的推理模式是 Extra High，超强推理模式，于是在每一步操作之前，GPT-5.3-Codex 都会询问我下一步的操作选择，这也和 Codex 内部能直接根据任务情况，调用不同 Skills 有关，其中的头脑风暴 Skill，会自动进行不断对话的模式。

实测 GPT-5.3-Codex，OpenAI 史上第一个高危模型，连 API 都还不敢给我们图12

最后，它基本上还是完成了我一开始要求它完成的全部功能，并且还能进一步开发 macOS、iOS，和安卓版本。

如果我们有现成的代码项目，也可以选择该项目文件夹，在 Codex 中打开，GPT-5.3-Codex 会分析项目存在的 Bug，并且修复它。

实测 GPT-5.3-Codex，OpenAI 史上第一个高危模型，连 API 都还不敢给我们图13

实测 GPT-5.3-Codex，OpenAI 史上第一个高危模型，连 API 都还不敢给我们图14

在过去很长一段时间里，无论是工具还是模型，开发者的首选其实都是 Anthropic 的 Sonnet/Opus 模型和 Claude Code 工具。OpenAI 在编程、尤其是长代码逻辑推理上的掉队，曾让不少开发者转投阵营。

GPT-5.3-Codex 的出现，就是为了终结这场争论。现在 GPT-5.3-Codex 在编程基准测试和实际表现上，不仅碾压了自家的前代模型，也确实有把友商模型按在地上摩擦的前兆。它真正具备了编写、测试和推理代码的能力。

做游戏项目，是这次模型介绍博客里，网站开发部分主要案例，我们也让 GPT-5.3-Codex 做了一个简单的物理弹球游戏，整体的效果虽然没有达到我的期待，因为我在提示词里面有说希望这是一个 RPG 的游戏，但 GPT-5.3-Codex 给我的界面还是过于简陋了。不过，好在还是能玩。

实测 GPT-5.3-Codex，OpenAI 史上第一个高危模型，连 API 都还不敢给我们图15

我们也在 X 上找到了一些用 GPT-5.3-Codex 做的小游戏，像这个类似超级玛丽的收集金币。

实测 GPT-5.3-Codex，OpenAI 史上第一个高危模型，连 API 都还不敢给我们图16

来源：https://x.com/Angaisb\_/status/2019548783869325331

强中更有强中手

对 Anthropic 来说，OpenAI 今天玩的这些，可能会说，这都是我们玩剩下的。无论是代码、或者 Agent 的能力，还是开始着手去做本地 Agent，从之前 Codex 的终端转成现在的 macOS App。

在技术的领域，OpenAI 仿佛都是跟着 Claude 的脚步在走，Claude 深耕代码能力，OpenAI 搞了 Sora、日报、浏览器、ChatGPT agent，都没什么水花，于是也在代码上发力；Claude 一月初推出 Cowork，OpenAI 也紧接着在二月初发布 Codex App。

实测 GPT-5.3-Codex，OpenAI 史上第一个高危模型，连 API 都还不敢给我们图17

就和今天的密集发布一样，凌晨 1:45，Claude 官方发 X 推出 Claude Opus 4.6，紧接着就是 OpenAI 端上 GPT-5.3-Codex。两款模型其实都是为了给 Agent 更强大的基座能力，以前是说代码/vibe coding，但现在 Agent 能做好，基本上都是「写代码写得好」。

Opus 4.6 虽然在 SWE-Bench 上的表现甚至不如 Opus 4.5，并且 Terminal-Bench 2.0 上的成绩也没有 GPT-5.3-Codex 强，但是 Opus 破天荒地把上下文长度拉到了一百万 token 的窗口。而且，这些 benchmark 的表现还没有相差很多。

Claude 说，我的 Sonnet 5 还没上来，那才是真功夫。

我们在网上也找了一些 Opus 4.6 最新的测试案例，有网友说 Claude 4.6 Opus 只是一次调用，就完全重构了他的整个代码库，将原来混乱的代码「屎山」全部模块化，并且没有模型能像 Opus 这样做到。

实测 GPT-5.3-Codex，OpenAI 史上第一个高危模型，连 API 都还不敢给我们图18

上下滑动查看更多内容

还有网友拿 Opus 4.6 和 4.5 进行对比，让两个模型玩同一款经营游戏，看谁的账户等级、财富和装备更高。测试博主提到，4.6 版本在初期制定战略的时间更长，但是做出了更好的战略决策，并且在最后确实做到了遥遥领先。

实测 GPT-5.3-Codex，OpenAI 史上第一个高危模型，连 API 都还不敢给我们图19

实测 GPT-5.3-Codex，OpenAI 史上第一个高危模型，连 API 都还不敢给我们图20

还有网友也做了一个游戏，不过是一个宝可梦的克隆版。博主提到这是他用 AI 做出来的最酷的东西。他提到，Claude Opus 4.6 思考了 1 小时 30 分钟，使用了 11 万个 Token，并且只迭代了三次。

https://x.com/chatgpt21/status/2019679978162634930

在 CLaude 官方演示和早期用户的反馈中，也提到了一个 Opus 表现优秀的案例。Opus 4.6 在一天内自主关闭了 13 个 issue，issue 即项目存在的待解决问题，并将另外 12 个 issue 准确分派给了正确的人类团队成员。

和 Kimi K2.5 的智能体蜂群一样，Opus 4.6 也能管理一个 50 人规模组织的代码库。在 Claude Code 中，我们可以组建 Agent Teams，召唤出一整个队伍的 AI，不再是一个 AI 在战斗。这些AI 可以有的负责写代码，有的负责 Review，有的负责测试，它们之间自主协作。

也有网友测试了 Claude Code 里面的 Agent 蜂群，提到启用蜂群之后的 Opus 4.6，速度提升 2.5 倍，并且效果也更好。