智能的成本与边界：代码作为 AI 能力的终极试炼场，为什么OpenAI和Anthropic在 AI 编码路线上做出不同选择

解读 GPT-5-Codex、技术普及、认知壁垒、巅峰性能与日常进步。

作者：NATHAN LAMBERT

日期：2025年9月18日

为何是编码？AI进步无可替代的主战场

由于编程具有广泛的应用场景，编码很可能已是前沿模型发展中，普通大众唯一能接触到、且易于驾驭的通用领域。

这是一个颇为大胆的论断，为此，我们不妨先审视一下前沿模型讨论中涉及的其他一些关键能力。

AI 聊天和文本生成的质量已进入平台期，除了为迎合用户而做的微调，鲜有实质性突破。
数学领域虽成果惊人，但更强的理论数学能力，却很少能让普通人直接受益。
AI 推动科学探索的能力尚待证实，还不足以成为一个可以全力攀登的目标。

然而，编码领域不仅是模型早已大显身手的战场，更是它们持续取得实质性突破的前线。

过去几年，无论是在个人项目还是在科研工作中，我已习惯于和 AI 并肩作战，因此很容易将这些强大的编码能力视作理所当然。

我们随手将一个 bug 抛给 ChatGPT，它便能解决；或者轻敲 Tab 键，自动补全就能帮我们写完一整段样板代码。

这些应用场景听起来波澜不惊，尽管其能力已天翻地覆，但从描述上看似乎变化不大。

如今，将一个上千行代码的复杂问题交给 GPT-5-Pro 或 Gemini Deep Think，已然是一种非常合理的策略。它们确实能解决我和同事曾耗费数小时乃至数天都无法攻克的难题。

AI 的编码能力正沿着一条清晰的路径演进：

函数补全：约 2021 年，初代 GitHub CoPilot
脚本编写：约 2022 年，ChatGPT
构建小型项目：约 2025 年，命令行代理
构建复杂生产代码库：约 2027 年 (预测值)

在 AI 的所有应用中，编码或许是唯一让我感受到这种缓慢而持续进步的领域。

自 GPT-4 问世以来，聊天质量就已足够好；AI 搜索一经推出便表现惊艳。在这些激动人心的时刻中，AI 的编码能力只是在稳步提升。

代理革命：从产品到提示词的新竞争维度

现在，许多人正通过新型的命令行代码代理，学习一种全新的 AI 协作方式。

这是 AI 编码能力近年来最大的一次飞跃。但问题在于，这次能力提升的领域并非大众所熟悉的交互界面，导致新技术的普及异常缓慢。

与这些代理协作的最佳方式，是去构建一个个迷你项目，无论是一个全新的网站还是一个自动化脚本。我稍后会分享更多实例。

对于那些需要快速验证想法的企业家和研究者而言，这些工具堪称神器。过去需要数天甚至数周的工作，现在几小时内便可完成。

在这个过程中，我们真正需要盯着代码看的时间正在急剧减少。通过代理进行编码，正在彻底瓦解这个行业的技术门槛，并以同样的方式，让编码重拾乐趣。

我认为许多人之所以错过了这些代理，是因为它们的使用方式，与那些宣传模型评测取得惊人突破的市场营销，完全是两回事。

“超人级编码”的宣告与“用代理做个小项目”的现实之间，存在巨大的鸿沟。目前，使用代理的最佳方式依旧朴实无华，需要你仔细界定工作范围。

例如，昨天 OpenAI 宣布，GPT-5 作为一个系统，在 ICPC 世界总决赛上取得了超越所有人类选手和谷歌 Gemini Deep Think 的成绩。

ICPC 是全球顶级的大学生编程竞赛，旨在解决极为复杂的算法问题。

一位 OpenAI 的研究员对此做出了解释：他们使用的是一个通用的推理模型集成系统，并未针对比赛进行专门训练。

系统中，GPT-5 和一个实验性推理模型共同生成解决方案，再由实验性模型筛选出最优解进行提交。GPT-5 答对了 11 题，而最难的最后一题则由实验性模型攻克。

这类竞赛备受瞩目，因为它们有严格的时间限制。但模型在同等时间内所消耗的算力，可能远非任何普通用户所能及。

这主要揭示了一点：从模型中可以榨取出更强的能力，即所谓的原始智能。但对普通用户而言，这种能力的发挥严重受限于外部的支撑框架和产品形态。

真正的核心在于，这些模型正在为越来越庞大的人群，创造着越来越大的价值。

对于 AI 爱好者而言，与 AI 一同编码，是感受技术进步最直接的方式。

如今，要测试顶尖模型的通用知识，需要极为专业的任务。因为在很多方面，模型的进步已不再是能否回答，而是能否比对手更快地给出正确答案。

我并非顶级的软件工程师，但不同模型间的巨大差异，以及它们各自取得的惊人进步，对我来说是如此的显而易见。

我曾多次强调，Claude Code 远胜于 Cursor Agent，而 Cursor Agent 又远胜于 Github CoPilot。

GitHub CoPilot 常给人一种醉驾感；Cursor 虽智能，却时常分心；而 Claude Code 和 Codex 则总能聚焦问题核心，将模型的智能发挥到极致。

当然，即使是最好的代理，在复杂的生产代码库中也常会力不从心。但它们让你无需再在聊天框里反复试探，就能直达问题的终点。

这些命令行代理能运行测试、解决版本控制问题、调用本地工具，其能力边界在不断拓宽。

至于 Claude Code 和 Codex CLI 当下的优劣之分，答案是：成本。

表现最佳的是强制使用 Claude Opus 4.1 的 Claude Code，但其每月高达 100 美元以上的订阅费用令人望而却步。

Codex 表现紧随其后，但每月 20 美元的入门价格则亲民得多。虽然 Codex 附带网页搜索等功能，但在我的实际使用中，这并未构成核心优势。

我的新工作流是：当一个代理卡住时，就切换到另一个，让它用全新的视角来审视问题，就像把问题发给另一个聊天机器人一样。

上述比较中，最关键的一点是，所有这些代理都可以搭载相同的 Claude 4 Sonnet 模型进行测试。

即便如此，它们之间的体验差距依然巨大。这恰恰说明，当前编码代理的许多性能增益，仅仅来自于产品层面的实现。

还有一个例子：当我初次尝试 GPT-5-Codex 模型时，因未更新本地的 Codex 软件，性能提升并不明显。更新软件后，性能瞬间有了质的飞跃。

在一个处于 AI 能力最前沿的领域，软件支撑框架的作用被如此强烈地放大，这是一种全新的现象。

产品和提示词比以往任何时候都更加重要，并且这种趋势将蔓延至更多领域。

这种性能差异背后的原因值得深思。并非 Anthropic 公司的软件工程和产品设计能力远超同行。

更可能的原因是，他们在如何最大化榨取模型潜能方面，积累了丰富的内部经验。

当前模型领域的转变，关键在于如何让为问答这类单线程任务设计的模型，学会分解复杂问题。在我的理论框架中，我称之为“抽象化”能力。

为了更好地适应编码任务，OpenAI 推出了专用模型——GPT-5-Codex。

GPT-5 的发布，更多是为了在聊天用户接近十亿的规模下，平衡公司的财务。它是一款为不同工作打磨的工具。

新的 GPT-5-Codex 在评测分数上仅比通用模型略高，但其核心优势在于编码任务中截然不同的行为模式。

据介绍，GPT-5-Codex 能根据任务的复杂性，动态调整其思考时间。它结合了两项编码代理的核心技能：与开发者实时结对编程，以及在长时任务上独立、持久地执行。

这意味着，处理简单请求时它会更敏捷，而面对大型重构等复杂任务时，它又能长时间自主工作。

测试显示，它能独立迭代、修复 bug 长达 7 小时，并最终成功交付。他们还用一张图表展示了这种动态变化。在我更新了软件和模型后，我确实感受到了这些。

这也恰好对应了我在理论框架中提出的另一个关键问题——校准，即避免过度思考。

为特定场景推出专用模型和产品，或许会让人误以为 AI 的发展正在收窄。

但对 OpenAI 而言，这更多是出于财务上的考量，需要优先保障主营的 ChatGPT 应用。而另一边的 Claude，则已将未来全部押注在代码领域。

从量变到质变：通往自主编程的未来之路

这些所谓的编码代理，其未来的能力将远超编写代码本身。

它们的核心能力确实是编写并执行代码，但这将催生一种与计算机交互的全新方式。

我曾在一篇文章中提出，未来的代理将被赋予我们所有的数字工作背景，成为一名全天候待命的研究或编辑助理。

我已经开始将这个想法付诸实践。我将自己所有的文章、访谈和笔记都喂给代理，以便在写作时，随时向它征询参考资料和灵感。

这个项目目前还非常初级，但在为本文寻找素材时，我向它提了几个问题，它真的从我过去的内容中，找到了一段极具启发性的引述！

那段引述来自我对 Ross Taylor 的访谈，精准地捕捉了当时使用编码代理的氛围：

我对 Claude Code 的主要担忧是，人们会混淆“代理让你更高效”与“代理让你不费脑力”。有时我用它工作一天，感觉毫不费力，非常美妙，但我很确定自己完成的工作变少了。

当文件变得过长时，情况会急转直下。代理会陷入困境，反复在代码行间进行徒劳的搜索，陷入一种“绝望循环”。

这种感受，在处理极其复杂的生产代码库时依然存在，但在我的测试中，代理陷入“绝望循环”的概率正在下降。

与此同时，那种编码的愉悦感和轻松感，却依然真实。

最近，我使用 Claude Code 和 OpenAI Codex CLI 构建了以下项目：

为我的 RLHF 研究书籍搭建了一个纯 HTML 网站。
创建了一个整合我所有文章和内容的私有仓库，让 AI 代理在我写作时担任编辑助理。
对 ATOM 项目的官方网站进行了多项改进。
将我的个人网站从 Webflow 系统中彻底迁移出来。
以及在日常工作中编写了许多小型脚本和工具。

不只是我，整个社区都在积极地利用这些工具进行创造。

像 PRArena 和 Agents in the Wild 等开源项目，就在持续追踪这些 AI 代理在公开代码库上的贡献。

PRArena 的数据显示，通过 Codex 网页版代理合并的 PR（代码合并请求）已超过一百万次，遥遥领先于其他竞争者。

这再次展示了 OpenAI 强大的分发能力，即便其网页版远非当前命令行代理的技术潮流。

值得注意的是，数据统计方法存在差异。

有些代理，如 Codex，会私下完成所有迭代，直接提交一个完美的 PR，因此草稿极少、合并率极高。

而另一些代理，如 Copilot，则鼓励公开迭代，先提交草稿，再逐步完善。

为了公平比较，以上统计只计算了准备就绪的 PR。

另一个项目 Agents in the Wild 的数据显示，OpenAI 编码代理贡献的 PR 数量，仅比所有人类开发者和其他自动化工具的总和低一个数量级。

而 Claude Code 的实际影响力可能被低估了。它的下载量是 Codex 的 20 多倍，只是默认情况下，它不会在提交的 PR 中标记自己的名字。

尽管精确衡量存在挑战，但一个不争的事实是：编码代理正在全面崛起。

上述数据主要来自 Codex 的网页代理，而非命令行版本。这恰恰反映了 OpenAI 庞大用户基础的力量。超过 80% 的合并率也说明，即便是在成千上万新手的初次尝试中，这个工具也表现得足够可靠。

网页代理与命令行代理的核心区别在于交互性。命令行代理会提出计划、征求反馈，允许你全程监控和干预。

而网页版则将这一过程打包，一键运行，直至最终生成一个 PR。

编码正变得越来越异步化。如果这一转变加速，OpenAI 已然占据了捕获这一趋势的绝佳位置。

向完全自主编码的过渡，将比人们预期的更快发生，尤其是在脚本编写、网站搭建和数据分析等 AI 已近乎完美的领域。

几年之内，自主代理将足够强大，AI 也能胜任最复杂的代码库改造。届时，一切将回归聊天窗口。

你只在需要理解系统内部逻辑时，才需要打开代码编辑器。对大多数人而言，无需再直面代码，将是一个受欢迎的改变。

编码领域的进步，不像过去模型代际更迭时那样充满“涌现”式的惊喜，感觉更慢，但也因此更易于观察和理解。

这套「教授-迭代-优化」的剧本，在未来几年将被各大前沿实验室反复使用，以教导 AI 解决更复杂的任务。

一场无声的革命正在发生。而要真正理解它，你必须亲身参与。动手去创造点什么吧。

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！