关于 OpenAI 的一些思考

2025年7月15日

作者：Calvin，OpenAI工程师

三周前，我离开了 OpenAI。回想当初，我于 2024 年 5 月加入这家公司。

之所以想分享这些思考，是因为外界关于 OpenAI 的讨论，总是充满了迷雾与噪音。而对于那里真实的工作文化，却鲜有第一手的亲历分享。

Nabeel Quereshi 有一篇极为出色的文章，深入探讨了 Palantir 的独特之处。我想趁记忆尚热，为 OpenAI 也做一次同样真诚的复盘。

这里没有商业机密，更多的是对这个历史上最迷人的组织之一，在当前这个关键节点上的一些个人感悟。

我必须坦率地说，我的离开并非源于任何个人恩怨，恰恰相反，我的内心充满了矛盾。

从零到一的创始人，到三千人大公司里的一名员工，这种身份的转变本身就是一道难题。此刻的我，更渴望一个全新的开始。

但这份工作的质量，很有可能在未来再次将我吸引回来。毕竟，很难想象还有什么比构建通用人工智能更具深远影响力的事业。

大语言模型无疑是这十年来最重要的技术创新。我庆幸自己能亲历其发展，并有幸参与了 Codex 的发布。

当然，以下仅为我的个人观察，不代表公司立场。OpenAI 如浩瀚星海，我所见的，不过是其中一扇小小的窗户。

文化

要理解 OpenAI，首先要理解它惊人的成长速度。我加入时，公司刚过千人；一年后，已逾三千。我的司龄，竟然已能排进前 30%。

几乎所有领导者，如今的职责都与两三年前大相径庭。

如此迅猛的扩张，必然导致所有环节都面临考验：公司沟通、汇报结构、产品交付、人员管理，乃至招聘流程。

团队文化也因此千差万别。有的团队时刻在全力冲刺，有的团队则守护着耗时巨大的计算任务，还有的团队步调更为稳健。

因此，不存在某种单一的 OpenAI 体验。研究、应用和市场推广这三大板块，各自在截然不同的时间尺度上运作。

OpenAI 有一个很特别的地方：所有事情，我是指所有事情，都在 Slack 上完成。这里不存在邮件文化。我在职期间，收到的邮件总数大概不超过十封。

如果你不善于管理信息流，会觉得极度干扰。但若你能精心组织频道与通知，它也能变得相当高效。

OpenAI 的文化极其自下而上，在研究领域尤其如此。我初来乍到时，曾去打听下一季度的路线图，得到的答复是：我们没有那东西（当然，现在有了）。

好的想法可以来自任何角落，而且你很难预知哪颗种子能结出最丰硕的果实。这里的进步并非源于宏大的总体规划，而是在新研究的不断迭代中，一步步探索出来的。

正因如此，OpenAI 也极其推崇精英主义。历史上，公司领导者的晋升，首要标准就是他们提出卓越想法并将其落地的能力。

许多能力超群的领导者，其实并不擅长在全体大会上演讲或玩弄办公室政治。但在 OpenAI，这些远没有在其他公司那么重要。最好的想法，往往能最终胜出。

这里的人们有强烈的行动偏好。你想到什么，就可以直接动手去做。不同团队不约而同地想到类似的点子，是常有的事。

我最初就参与了一个内部项目，与后来的 ChatGPT Connectors 类似。在我们决定正式推出 Codex 前，内部至少有三四个不同的原型在流传。

这些探索通常由少数几个人在未经许可的情况下发起。一旦项目显露出潜力，团队便会迅速围绕它集结起来。

Codex 的负责人 Andrey 曾告诉我，应该把每位研究员都看作是独立的迷你 CEO。他们有强烈的意愿去探索自己的想法，看看能走多远。

这也带来一个推论：大多数研究课题的启动，都是靠一个有趣的技术难题去钓到一位研究员。如果一个问题被认为是无趣或已解决的，那它基本就不会有人碰。

优秀的研究管理者，其影响力巨大，但自身也极为稀缺。他们能将不同研究工作的点滴串联起来，最终促成一次更大规模的模型训练。优秀的 PM 也是如此。

与我共事的几位 ChatGPT 工程经理，是我见过最沉着冷静的客户。你感觉他们仿佛已经历过一切风浪，波澜不惊。

他们大多采取放手管理的风格，专注于招聘对的人，并为他们创造成功的环境。

OpenAI 能在瞬间调转方向。当我们获得新的信息时，选择做正确的事，远比固守原计划重要得多。

一个如此体量的公司仍能保持这种敏锐，令人瞩目——Google 显然已不具备。OpenAI 决策果断，一旦选定方向，便会倾尽全力。

公司也承受着外界巨大的审视压力。我出身于 B2B 企业服务领域，对此感到颇为震惊。媒体上爆出的新闻，往往比公司内部的官宣还要早。

当我告诉别人我在 OpenAI 工作时，对方的回应里总是带着一个早已成型的刻板印象。甚至有 Twitter 用户用机器人时刻监控着我们是否将要发布新功能。

这一切，使得 OpenAI 成了一个高度保密的地方。我无法向任何人透露工作的具体细节。公司内部有多个不同权限的 Slack 工作区，而收入和支出等核心数据更是被严密守护。

同时，OpenAI 比你想象的更加严肃，部分原因在于肩负的责任与期望异常沉重。

一方面，终极目标是构建通用人工智能，这意味着每一步都必须走对。另一方面，你正在构建一个被数亿用户依赖的产品，从医疗咨询到心理疏导。

更不用说，公司正身处全球最顶级的竞技场。我们密切关注着 Meta、Google 和 Anthropic 的一举一动，我相信他们亦然。全世界的主要政府，都在以敏锐的目光注视着这个领域。

尽管媒体时常中伤 OpenAI，但我遇到的每一个人，都真诚地在努力做正确的事。因为直面消费者，它在几大实验室中曝光度最高，也因此承受了最多的非议。

不过，你或许不应将 OpenAI 视为一个铁板一块的整体。我倾向于把它看作一个诞生于洛斯阿拉莫斯式环境的组织：一群顶尖的科学家和工匠，共同探索科学的无人区。

这个团体，碰巧催生了史上最具病毒传播效应的消费级应用。随后，又萌生了向政府和企业提供服务的雄心。

因此，在公司工作时间长短不同、部门不同的人，其目标和视角也大相径庭。你在公司待得越久，可能越倾向于用研究实验室或向善的非营利组织的滤镜来看待它。

我最欣赏的一点是，公司在普惠人工智能这件事上，真正做到了言行一致。最前沿的模型，并未被束之高阁，仅供签订了昂贵年费的企业客户使用。

世界上任何一个人，哪怕没有登录，都可以访问 ChatGPT 并获得答案。它的 API 也是开放的，任何人都能注册使用。

绝大多数模型，即使是最先进的专有模型，也都会很快地通过 API 开放给所有创业者。你可以想象一个与今天截然不同的、更为封闭的平行世界。OpenAI 在这方面的坚持，值得极大的赞誉，这也是其 DNA 的核心。

如果你常读 Zvi 或 Lesswrong 的文章，你可能会惊讶地发现，安全在这里受到的重视程度远超想象。

有非常多的人在为构建安全体系而努力。基于 OpenAI 的特性，我看到大家更关注实际风险，如仇恨言论、滥用、政治偏见、生物武器、自残、提示词注入等。

当然，这并非说没人关心理论风险，比如智能爆炸或权力寻求，绝对有团队在专注于此。但在我看来，那并非当前阶段的重心。
然而，大部分已完成的安全工作并未公开发表。OpenAI 确实应该在这方面做得更多，让外界了解他们的努力。

不同于那些在招聘会上大方派送周边的公司，OpenAI 几乎不怎么发礼物，即便是对新员工。

取而代之的是定期的“掉落”活动，你可以订购一些库存商品。第一次活动就因需求过于火爆而冲垮了商店网站。内部甚至还流传过一个帖子，教大家如何直接发送 JSON 请求来绕过拥堵。

与 GPU 的成本相比，几乎所有其他开销都可以忽略不计。举个例子：我们为 Codex 构建的一个小众功能，其单项 GPU 成本就与我们整个公司的部分基础设施开销相当。

OpenAI 或许是我见过其雄心之大，甚至令人感到一丝敬畏的组织。你可能觉得，拥有全球顶级的消费级应用就已足够，但它还渴望在数十个不同的战场上全面开花。

从 API 产品到深度研究，从硬件到编程代理，再到图像生成……以及一系列尚未公布的秘密项目。这里是一片能让想法野蛮生长并极速奔跑的沃土。

公司高度关注 Twitter 上的动态。如果你发的推文与 OpenAI 相关并走红，很有可能就会被内部看到并纳入考量。

我朋友开玩笑说：这家公司是靠 Twitter 的风向驱动的。作为一家消费品公司，这话或许不无道理。当然，严谨的数据分析始终存在，但感觉和风向同样至关重要。

OpenAI 的团队流动性和灵活性远超其他公司。在冲刺 Codex 发布时，我们需要几位经验丰富的 ChatGPT 工程师支援。

我们与他们的经理沟通了需求。第二天，两位顶尖高手就已经到位，准备投入战斗。没有等季度规划，也没有人力重新洗牌，一切都快得惊人。

领导层的存在感极强且深度参与。在 OpenAI 这样的公司，这或许不言自明，但每一位高管都显得极其投入。

你会在 Slack 上看到公司高层们频繁地参与讨论。这里没有甩手掌柜式的领导。

代码

OpenAI 使用一个庞大的单体代码仓库，其中绝大部分是 Python，但也混杂着日益增多的 Rust 服务和零星的 Go 服务。

这导致代码风格五花八门，因为 Python 的写法实在太多了。你既能看到谷歌十年老兵为可扩展性设计的精密库，也能看到新晋博士随手写的实验性代码。

FastAPI 和 Pydantic 分别是构建 API 和数据验证的标配，但并没有一套全公司强制执行的编码规范。

OpenAI 的所有服务都运行在 Azure 上。有趣的是，在我看来，其中真正值得信赖的服务只有三项：AKS、CosmosDB 和 BlobStore。

这里没有能与 AWS 的 Dynamo、Spanner、Bigtable、BigQuery 或 Aurora 等量齐观的替代品。IAM 的权限管理也比 AWS 局限得多。因此，公司内部有强烈的自研倾向。

在工程人才方面，存在一条非常明显的Meta 到 OpenAI的人才输送管道。OpenAI 在很多方面都酷似早期的 Meta：一款现象级应用、尚不成熟的基础设施，以及对速度的极致追求。

从 Meta 和 Instagram 引入的基础设施人才，能力普遍非常强。

将这些因素结合起来，你会发现 OpenAI 的许多核心基础设施都有着 Meta 的影子。例如，内部重新实现了一套类似 Meta 的 TAO 系统，还有一个在边缘网络整合身份认证的项目。我相信还有更多我不了解的类似努力。

对话这一概念已深入骨髓。自 ChatGPT 取得巨大成功后，大量代码库都围绕着消息和对话这两个基本单元来构建。

这些设计已经如此根深蒂固，以至于你想绕开它们，就得承担相当大的风险。我们在 Codex 中虽稍有偏离，但仍大量借鉴了过往的经验。

代码即决策。这里没有中央架构委员会来做规划，决策通常由具体执行的团队来制定。

这种模式带来了极强的行动力，但也导致代码库中存在大量重复造轮子的现象。我至少见过六七个功能类似的队列管理或代理循环库。

在某些领域，快速膨胀的团队与匮乏的工具之间的矛盾也开始显现。比如，后端的单体服务 sa-server 成了代码的垃圾场。

主干分支的持续集成失败的频率远超预期。一个测试用例，即便并行运行且只考虑部分依赖，在 GPU 上也可能要跑上 30 分钟。

这些问题并非无解，但它们提醒我们，这类工程挑战无处不在，并且会在极速扩张中被急剧放大。值得称赞的是，内部团队正投入巨大的精力来改善这一切。

其它收获

我真正理解了一个顶级消费品牌意味着什么。直到我参与 Codex 项目，才对此有了切身体会。所有指标都围绕“专业版订阅数”展开。

即使是 Codex 这样面向开发者的产品，我们思考的出发点也是个人使用，而非团队。

这对我这个 B2B 背景的人来说，是一次彻底的思维重塑。你只需按下一个开关，流量便会从第一天起汹涌而至。

我从宏观层面理解了大型模型是如何训练的。这是一个从实验到工程的连续过程。

多数想法始于小规模实验。若结果喜人，便会被纳入更大规模的训练中。实验不仅是调整算法，更是精调数据配比并细致分析结果的艺术。

而一次大规模的训练，其复杂程度堪比一项浩大的分布式系统工程。你会遇到各种意想不到的极端状况，而调试它们，便是你的职责。

我学会了如何做 GPU 算力规划。在 Codex 发布前，我们必须预测负载容量需求，那是我第一次真正对 GPU 进行基准测试。

核心要点是：你应该从最终的延迟要求（如总延迟、token 数、首个 token 响应时间）出发，进行反向推导，而不是自下而上地分析单个 GPU 的极限。模型的每次迭代，都可能彻底改变负载模式。

我学会了如何在一个大型 Python 代码库中高效工作。我之前的公司主要使用 Go 和 TypeScript，代码库的广度远不及 OpenAI。

在这里，我学到了大量关于如何根据开发者数量来扩展代码库的实践。你必须建立更多的护栏，以确保代码默认可用、主干纯净和难以误用。

发布 Codex

我在 OpenAI 的最后三个月，浓墨重彩的一笔便是发布 Codex。这无疑是我职业生涯最高光的时刻之一。

时间回到 2024 年 11 月，OpenAI 定下了在 2025 年发布一款编程代理的目标。到了 2025 年 2 月，我们内部已经有了几个效果不错的原型工具。

我们感受到了市场的压力，也看到了模型在编程领域日益强大的潜力，推出一款专注编程的代理迫在眉睫。

为此，我提前结束了陪产假，投身于 Codex 的发布。我回来仅一周，两个团队便经历了一次（略带混乱的）合并，随即开始了疯狂的冲刺。

从写下第一行代码到产品最终上线，整个过程只用了短短 7 周。

那段时间，可能是我近十年来工作最拼命的日子。几乎每晚都工作到深夜，清晨 5:30 被新生儿的啼哭唤醒，7 点又匆匆赶往办公室，周末也几乎无休。

我们整个团队都在奋力向前，因为每一周都至关重要。那感觉，仿佛又回到了在 YC 孵化器的时光。

很难用语言形容这种节奏有多么不可思议。我从未见过任何规模的组织，能在如此短的时间内，将一个想法变成一个功能完备、免费开放的产品。

它的工程量也绝非微不足道。我们构建了容器运行时、优化了代码库下载、为代码编辑微调了专属模型、处理了各种 Git 操作、设计了全新的交互界面、打通了网络访问……最终呈现出一款体验令人愉悦的产品。

无论外界如何评价，OpenAI 骨子里依然流淌着那种勇于发布、敢于冲锋的精神。

好消息是，对的人聚在一起，真的能创造奇迹。我们这个核心团队，由大约 8 名工程师、4 名研究员、2 名设计师、2 名市场人员和 1 名产品经理组成。

如果没有这个精英团队，我认为项目必将失败。大家几乎不需要指令，但需要大量的协调。如果你有幸与 Codex 团队的任何一员共事，请相信，他们中的每一位都出类拔萃。

发布前夜，我们五个人一直忙到凌晨四点，才最终完成了主服务的部署。然后又马不停蹄地赶回办公室，为早上八点的发布会和直播做准备。

当功能开关开启的那一刻，我们眼看着流量如潮水般涌入。我从未见过一个产品，仅凭在侧边栏的出现，就能获得如此即时的巨大关注。这就是 ChatGPT 的力量。

在产品形态上，我们选择了完全异步的模式。用户可以启动一个任务，然后让代码代理在自己的环境中独立运行，完成后再以一个代码合并请求的形式交还结果。

我们的赌注是，在编程的终极形态中，用户会像对待同事一样对待编程代理。

这在当下是一场赌博。我们正处在一个奇特的阶段：模型很好，但还不够卓越。它们能持续工作几分钟，但还无法胜任数小时的任务。

用户对模型能力的信任度参差不齐，而我们自己对模型的真正潜力，也仍在探索之中。

但着眼长远，我坚信，未来绝大多数的编程工作都会更接近 Codex 的模式。在此期间，见证所有相关产品的演进，将是一件非常有趣的事。

Codex（这或许不令人意外）非常擅长在大型代码库中工作和导航。它与其他工具最大的不同，在于能同时启动多个任务并让你比较它们的结果。

最近我看到有公开数据显示，Codex 生成的代码合并请求已达 63 万个。这意味着发布后的 53 天里，团队里的每位工程师平均贡献了 7.8 万个公开的合并请求。我感觉自己从未做过比这更有影响力的事情。

临别赠言

说实话，我最初对加入 OpenAI 心存疑虑。我不确定牺牲自由、向人汇报、成为庞大机器上的一个小齿轮，会是怎样的体验。因此，我一直对此保持低调。

我曾希望从这段经历中获得三样东西：

建立对模型训练和其能力边界的直觉。
与卓越的人共事，并向他们学习。
发布一款伟大的产品。

如今回望这一年，我认为这是我做过的最正确的决定之一。我很难想象，在别处能有如此密集的学习和成长。

如果你是一位创始人，正感觉自己的事业陷入瓶颈，那么你应该：1）要么深刻反思，如何才能创造更多破局的机会；2）要么果断加入一家顶尖的人工智能实验室。

现在，是创造的黄金时代，更是窥见未来的绝佳时机。

在我看来，通往通用人工智能的道路，目前是三强争霸的格局：OpenAI、Anthropic 和 Google。

基于各自不同的基因（消费者导向、企业导向、还是基石稳固的基础设施+数据），它们会走出三条截然不同的道路。[^6]

无论在哪一家工作，都将是一次让你眼界大开的非凡体验。

感谢我的妻子 Leah，在我深夜工作的日子里，她给予了无与伦比的支持，并承担了绝大部分育儿的辛劳。

感谢 PW、GDB 和 Rizzo 给了我这次宝贵的机会。

感谢最初带我入门的团队伙伴们。

也感谢 Codex 核心团队的每一位成员，你们给了我一段终身难忘的旅程。这次冲刺，我永志不忘。

Wham.

[^6]: 我们也看到 Meta 近期引入了一些重量级人物，xAI 的 Grok 4 在基准测试中表现不俗，Mira 和 Ilya 的团队也人才济济。格局或许会变，但他们还有很长的路要追赶。

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！