重磅!OpenAI前Codex核心成员万字长文亲述离职:7周上线Codex,没有邮件,没有路线图,领导层没有一个甩手掌柜!

智能情报所 2025-07-16 13:22

关于 OpenAI 的一些思考

2025年7月15日

作者:Calvin,OpenAI工程师

三周前,我离开了 OpenAI。回想当初,我于 2024 年 5 月加入这家公司。

之所以想分享这些思考,是因为外界关于 OpenAI 的讨论,总是充满了迷雾与噪音。而对于那里真实的工作文化,却鲜有第一手的亲历分享。

Nabeel Quereshi 有一篇极为出色的文章,深入探讨了 Palantir 的独特之处。我想趁记忆尚热,为 OpenAI 也做一次同样真诚的复盘。

这里没有商业机密,更多的是对这个历史上最迷人的组织之一,在当前这个关键节点上的一些个人感悟。

我必须坦率地说,我的离开并非源于任何个人恩怨,恰恰相反,我的内心充满了矛盾。

从零到一的创始人,到三千人大公司里的一名员工,这种身份的转变本身就是一道难题。此刻的我,更渴望一个全新的开始。

但这份工作的质量,很有可能在未来再次将我吸引回来。毕竟,很难想象还有什么比构建通用人工智能更具深远影响力的事业。

大语言模型无疑是这十年来最重要的技术创新。我庆幸自己能亲历其发展,并有幸参与了 Codex 的发布。

当然,以下仅为我的个人观察,不代表公司立场。OpenAI 如浩瀚星海,我所见的,不过是其中一扇小小的窗户。

文化

要理解 OpenAI,首先要理解它惊人的成长速度。我加入时,公司刚过千人;一年后,已逾三千。我的司龄,竟然已能排进前 30%。

几乎所有领导者,如今的职责都与两三年前大相径庭。

如此迅猛的扩张,必然导致所有环节都面临考验:公司沟通、汇报结构、产品交付、人员管理,乃至招聘流程。

团队文化也因此千差万别。有的团队时刻在全力冲刺,有的团队则守护着耗时巨大的计算任务,还有的团队步调更为稳健。

因此,不存在某种单一的 OpenAI 体验。研究、应用和市场推广这三大板块,各自在截然不同的时间尺度上运作。

OpenAI 有一个很特别的地方:所有事情,我是指所有事情,都在 Slack 上完成。这里不存在邮件文化。我在职期间,收到的邮件总数大概不超过十封。

如果你不善于管理信息流,会觉得极度干扰。但若你能精心组织频道与通知,它也能变得相当高效。

OpenAI 的文化极其自下而上,在研究领域尤其如此。我初来乍到时,曾去打听下一季度的路线图,得到的答复是:我们没有那东西(当然,现在有了)。

好的想法可以来自任何角落,而且你很难预知哪颗种子能结出最丰硕的果实。这里的进步并非源于宏大的总体规划,而是在新研究的不断迭代中,一步步探索出来的。

正因如此,OpenAI 也极其推崇精英主义。历史上,公司领导者的晋升,首要标准就是他们提出卓越想法并将其落地的能力。

许多能力超群的领导者,其实并不擅长在全体大会上演讲或玩弄办公室政治。但在 OpenAI,这些远没有在其他公司那么重要。最好的想法,往往能最终胜出

这里的人们有强烈的行动偏好。你想到什么,就可以直接动手去做。不同团队不约而同地想到类似的点子,是常有的事。

我最初就参与了一个内部项目,与后来的 ChatGPT Connectors 类似。在我们决定正式推出 Codex 前,内部至少有三四个不同的原型在流传。

这些探索通常由少数几个人在未经许可的情况下发起。一旦项目显露出潜力,团队便会迅速围绕它集结起来。

Codex 的负责人 Andrey 曾告诉我,应该把每位研究员都看作是独立的迷你 CEO。他们有强烈的意愿去探索自己的想法,看看能走多远。

这也带来一个推论:大多数研究课题的启动,都是靠一个有趣的技术难题去钓到一位研究员。如果一个问题被认为是无趣或已解决的,那它基本就不会有人碰。

优秀的研究管理者,其影响力巨大,但自身也极为稀缺。他们能将不同研究工作的点滴串联起来,最终促成一次更大规模的模型训练。优秀的 PM 也是如此。

与我共事的几位 ChatGPT 工程经理,是我见过最沉着冷静的客户。你感觉他们仿佛已经历过一切风浪,波澜不惊。

他们大多采取放手管理的风格,专注于招聘对的人,并为他们创造成功的环境

OpenAI 能在瞬间调转方向。当我们获得新的信息时,选择做正确的事,远比固守原计划重要得多。

一个如此体量的公司仍能保持这种敏锐,令人瞩目——Google 显然已不具备。OpenAI 决策果断,一旦选定方向,便会倾尽全力。

公司也承受着外界巨大的审视压力。我出身于 B2B 企业服务领域,对此感到颇为震惊。媒体上爆出的新闻,往往比公司内部的官宣还要早。

当我告诉别人我在 OpenAI 工作时,对方的回应里总是带着一个早已成型的刻板印象。甚至有 Twitter 用户用机器人时刻监控着我们是否将要发布新功能。

这一切,使得 OpenAI 成了一个高度保密的地方。我无法向任何人透露工作的具体细节。公司内部有多个不同权限的 Slack 工作区,而收入和支出等核心数据更是被严密守护。

同时,OpenAI 比你想象的更加严肃,部分原因在于肩负的责任与期望异常沉重。

一方面,终极目标是构建通用人工智能,这意味着每一步都必须走对。另一方面,你正在构建一个被数亿用户依赖的产品,从医疗咨询到心理疏导。

更不用说,公司正身处全球最顶级的竞技场。我们密切关注着 Meta、Google 和 Anthropic 的一举一动,我相信他们亦然。全世界的主要政府,都在以敏锐的目光注视着这个领域。

尽管媒体时常中伤 OpenAI,但我遇到的每一个人,都真诚地在努力做正确的事。因为直面消费者,它在几大实验室中曝光度最高,也因此承受了最多的非议。

不过,你或许不应将 OpenAI 视为一个铁板一块的整体。我倾向于把它看作一个诞生于洛斯阿拉莫斯式环境的组织:一群顶尖的科学家和工匠,共同探索科学的无人区

这个团体,碰巧催生了史上最具病毒传播效应的消费级应用。随后,又萌生了向政府和企业提供服务的雄心。

因此,在公司工作时间长短不同、部门不同的人,其目标和视角也大相径庭。你在公司待得越久,可能越倾向于用研究实验室或向善的非营利组织的滤镜来看待它。

我最欣赏的一点是,公司在普惠人工智能这件事上,真正做到了言行一致。最前沿的模型,并未被束之高阁,仅供签订了昂贵年费的企业客户使用。

世界上任何一个人,哪怕没有登录,都可以访问 ChatGPT 并获得答案。它的 API 也是开放的,任何人都能注册使用。

绝大多数模型,即使是最先进的专有模型,也都会很快地通过 API 开放给所有创业者。你可以想象一个与今天截然不同的、更为封闭的平行世界。OpenAI 在这方面的坚持,值得极大的赞誉,这也是其 DNA 的核心。

如果你常读 Zvi 或 Lesswrong 的文章,你可能会惊讶地发现,安全在这里受到的重视程度远超想象。

有非常多的人在为构建安全体系而努力。基于 OpenAI 的特性,我看到大家更关注实际风险,如仇恨言论、滥用、政治偏见、生物武器、自残、提示词注入等。

当然,这并非说没人关心理论风险,比如智能爆炸或权力寻求,绝对有团队在专注于此。但在我看来,那并非当前阶段的重心。
然而,大部分已完成的安全工作并未公开发表。OpenAI 确实应该在这方面做得更多,让外界了解他们的努力。

不同于那些在招聘会上大方派送周边的公司,OpenAI 几乎不怎么发礼物,即便是对新员工。

取而代之的是定期的“掉落”活动,你可以订购一些库存商品。第一次活动就因需求过于火爆而冲垮了商店网站。内部甚至还流传过一个帖子,教大家如何直接发送 JSON 请求来绕过拥堵。

与 GPU 的成本相比,几乎所有其他开销都可以忽略不计。举个例子:我们为 Codex 构建的一个小众功能,其单项 GPU 成本就与我们整个公司的部分基础设施开销相当。

OpenAI 或许是我见过其雄心之大,甚至令人感到一丝敬畏的组织。你可能觉得,拥有全球顶级的消费级应用就已足够,但它还渴望在数十个不同的战场上全面开花。

从 API 产品到深度研究,从硬件到编程代理,再到图像生成……以及一系列尚未公布的秘密项目。这里是一片能让想法野蛮生长并极速奔跑的沃土

公司高度关注 Twitter 上的动态。如果你发的推文与 OpenAI 相关并走红,很有可能就会被内部看到并纳入考量。

我朋友开玩笑说:这家公司是靠 Twitter 的风向驱动的。作为一家消费品公司,这话或许不无道理。当然,严谨的数据分析始终存在,但感觉和风向同样至关重要。

OpenAI 的团队流动性和灵活性远超其他公司。在冲刺 Codex 发布时,我们需要几位经验丰富的 ChatGPT 工程师支援。

我们与他们的经理沟通了需求。第二天,两位顶尖高手就已经到位,准备投入战斗。没有等季度规划,也没有人力重新洗牌,一切都快得惊人。

领导层的存在感极强且深度参与。在 OpenAI 这样的公司,这或许不言自明,但每一位高管都显得极其投入。

你会在 Slack 上看到公司高层们频繁地参与讨论。这里没有甩手掌柜式的领导。

代码

OpenAI 使用一个庞大的单体代码仓库,其中绝大部分是 Python,但也混杂着日益增多的 Rust 服务和零星的 Go 服务。

这导致代码风格五花八门,因为 Python 的写法实在太多了。你既能看到谷歌十年老兵为可扩展性设计的精密库,也能看到新晋博士随手写的实验性代码。

FastAPI 和 Pydantic 分别是构建 API 和数据验证的标配,但并没有一套全公司强制执行的编码规范。

OpenAI 的所有服务都运行在 Azure 上。有趣的是,在我看来,其中真正值得信赖的服务只有三项:AKS、CosmosDB 和 BlobStore。

这里没有能与 AWS 的 Dynamo、Spanner、Bigtable、BigQuery 或 Aurora 等量齐观的替代品。IAM 的权限管理也比 AWS 局限得多。因此,公司内部有强烈的自研倾向。

在工程人才方面,存在一条非常明显的Meta 到 OpenAI的人才输送管道。OpenAI 在很多方面都酷似早期的 Meta:一款现象级应用、尚不成熟的基础设施,以及对速度的极致追求

从 Meta 和 Instagram 引入的基础设施人才,能力普遍非常强。

将这些因素结合起来,你会发现 OpenAI 的许多核心基础设施都有着 Meta 的影子。例如,内部重新实现了一套类似 Meta 的 TAO 系统,还有一个在边缘网络整合身份认证的项目。我相信还有更多我不了解的类似努力。

对话这一概念已深入骨髓。自 ChatGPT 取得巨大成功后,大量代码库都围绕着消息和对话这两个基本单元来构建。

这些设计已经如此根深蒂固,以至于你想绕开它们,就得承担相当大的风险。我们在 Codex 中虽稍有偏离,但仍大量借鉴了过往的经验。

代码即决策。这里没有中央架构委员会来做规划,决策通常由具体执行的团队来制定。

这种模式带来了极强的行动力,但也导致代码库中存在大量重复造轮子的现象。我至少见过六七个功能类似的队列管理或代理循环库。

在某些领域,快速膨胀的团队与匮乏的工具之间的矛盾也开始显现。比如,后端的单体服务 sa-server 成了代码的垃圾场。

主干分支的持续集成失败的频率远超预期。一个测试用例,即便并行运行且只考虑部分依赖,在 GPU 上也可能要跑上 30 分钟。

这些问题并非无解,但它们提醒我们,这类工程挑战无处不在,并且会在极速扩张中被急剧放大。值得称赞的是,内部团队正投入巨大的精力来改善这一切。

其它收获

我真正理解了一个顶级消费品牌意味着什么。直到我参与 Codex 项目,才对此有了切身体会。所有指标都围绕“专业版订阅数”展开

即使是 Codex 这样面向开发者的产品,我们思考的出发点也是个人使用,而非团队。

这对我这个 B2B 背景的人来说,是一次彻底的思维重塑。你只需按下一个开关,流量便会从第一天起汹涌而至。

我从宏观层面理解了大型模型是如何训练的。这是一个从实验到工程的连续过程。

多数想法始于小规模实验。若结果喜人,便会被纳入更大规模的训练中。实验不仅是调整算法,更是精调数据配比并细致分析结果的艺术。

而一次大规模的训练,其复杂程度堪比一项浩大的分布式系统工程。你会遇到各种意想不到的极端状况,而调试它们,便是你的职责。

我学会了如何做 GPU 算力规划。在 Codex 发布前,我们必须预测负载容量需求,那是我第一次真正对 GPU 进行基准测试。

核心要点是:你应该从最终的延迟要求(如总延迟、token 数、首个 token 响应时间)出发,进行反向推导,而不是自下而上地分析单个 GPU 的极限。模型的每次迭代,都可能彻底改变负载模式。

我学会了如何在一个大型 Python 代码库中高效工作。我之前的公司主要使用 Go 和 TypeScript,代码库的广度远不及 OpenAI。

在这里,我学到了大量关于如何根据开发者数量来扩展代码库的实践。你必须建立更多的护栏,以确保代码默认可用、主干纯净和难以误用。

发布 Codex

我在 OpenAI 的最后三个月,浓墨重彩的一笔便是发布 Codex。这无疑是我职业生涯最高光的时刻之一。

时间回到 2024 年 11 月,OpenAI 定下了在 2025 年发布一款编程代理的目标。到了 2025 年 2 月,我们内部已经有了几个效果不错的原型工具。

我们感受到了市场的压力,也看到了模型在编程领域日益强大的潜力,推出一款专注编程的代理迫在眉睫。

为此,我提前结束了陪产假,投身于 Codex 的发布。我回来仅一周,两个团队便经历了一次(略带混乱的)合并,随即开始了疯狂的冲刺。

从写下第一行代码到产品最终上线,整个过程只用了短短 7 周

那段时间,可能是我近十年来工作最拼命的日子。几乎每晚都工作到深夜,清晨 5:30 被新生儿的啼哭唤醒,7 点又匆匆赶往办公室,周末也几乎无休。

我们整个团队都在奋力向前,因为每一周都至关重要。那感觉,仿佛又回到了在 YC 孵化器的时光。

很难用语言形容这种节奏有多么不可思议。我从未见过任何规模的组织,能在如此短的时间内,将一个想法变成一个功能完备、免费开放的产品。

它的工程量也绝非微不足道。我们构建了容器运行时、优化了代码库下载、为代码编辑微调了专属模型、处理了各种 Git 操作、设计了全新的交互界面、打通了网络访问……最终呈现出一款体验令人愉悦的产品。

无论外界如何评价,OpenAI 骨子里依然流淌着那种勇于发布、敢于冲锋的精神。

好消息是,对的人聚在一起,真的能创造奇迹。我们这个核心团队,由大约 8 名工程师、4 名研究员、2 名设计师、2 名市场人员和 1 名产品经理组成

如果没有这个精英团队,我认为项目必将失败。大家几乎不需要指令,但需要大量的协调。如果你有幸与 Codex 团队的任何一员共事,请相信,他们中的每一位都出类拔萃。

发布前夜,我们五个人一直忙到凌晨四点,才最终完成了主服务的部署。然后又马不停蹄地赶回办公室,为早上八点的发布会和直播做准备。

当功能开关开启的那一刻,我们眼看着流量如潮水般涌入。我从未见过一个产品,仅凭在侧边栏的出现,就能获得如此即时的巨大关注。这就是 ChatGPT 的力量。

在产品形态上,我们选择了完全异步的模式。用户可以启动一个任务,然后让代码代理在自己的环境中独立运行,完成后再以一个代码合并请求的形式交还结果。

我们的赌注是,在编程的终极形态中,用户会像对待同事一样对待编程代理。

这在当下是一场赌博。我们正处在一个奇特的阶段:模型很好,但还不够卓越。它们能持续工作几分钟,但还无法胜任数小时的任务。

用户对模型能力的信任度参差不齐,而我们自己对模型的真正潜力,也仍在探索之中。

但着眼长远,我坚信,未来绝大多数的编程工作都会更接近 Codex 的模式。在此期间,见证所有相关产品的演进,将是一件非常有趣的事。

Codex(这或许不令人意外)非常擅长在大型代码库中工作和导航。它与其他工具最大的不同,在于能同时启动多个任务并让你比较它们的结果。

最近我看到有公开数据显示,Codex 生成的代码合并请求已达 63 万个。这意味着发布后的 53 天里,团队里的每位工程师平均贡献了 7.8 万个公开的合并请求。我感觉自己从未做过比这更有影响力的事情。

临别赠言

说实话,我最初对加入 OpenAI 心存疑虑。我不确定牺牲自由、向人汇报、成为庞大机器上的一个小齿轮,会是怎样的体验。因此,我一直对此保持低调。

我曾希望从这段经历中获得三样东西:

  1. 建立对模型训练和其能力边界的直觉。
  2. 与卓越的人共事,并向他们学习。
  3. 发布一款伟大的产品。

如今回望这一年,我认为这是我做过的最正确的决定之一。我很难想象,在别处能有如此密集的学习和成长。

如果你是一位创始人,正感觉自己的事业陷入瓶颈,那么你应该:1)要么深刻反思,如何才能创造更多破局的机会;2)要么果断加入一家顶尖的人工智能实验室

现在,是创造的黄金时代,更是窥见未来的绝佳时机。

在我看来,通往通用人工智能的道路,目前是三强争霸的格局:OpenAI、Anthropic 和 Google。

基于各自不同的基因(消费者导向、企业导向、还是基石稳固的基础设施+数据),它们会走出三条截然不同的道路。[^6]

无论在哪一家工作,都将是一次让你眼界大开的非凡体验。

感谢我的妻子 Leah,在我深夜工作的日子里,她给予了无与伦比的支持,并承担了绝大部分育儿的辛劳。

感谢 PW、GDB 和 Rizzo 给了我这次宝贵的机会。

感谢最初带我入门的团队伙伴们。

也感谢 Codex 核心团队的每一位成员,你们给了我一段终身难忘的旅程。这次冲刺,我永志不忘。

Wham.

[^6]: 我们也看到 Meta 近期引入了一些重量级人物,xAI 的 Grok 4 在基准测试中表现不俗,Mira 和 Ilya 的团队也人才济济。格局或许会变,但他们还有很长的路要追赶。


一键三连点赞」「转发」「小心心

欢迎在评论区留下你的想法!


声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI
Copyright © 2025 成都科技区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号