关于 OpenAI 的一些思考
2025年7月15日
作者:Calvin,OpenAI工程师
三周前,我离开了 OpenAI。回想当初,我于 2024 年 5 月加入这家公司。
之所以想分享这些思考,是因为外界关于 OpenAI 的讨论,总是充满了迷雾与噪音。而对于那里真实的工作文化,却鲜有第一手的亲历分享。
Nabeel Quereshi 有一篇极为出色的文章,深入探讨了 Palantir 的独特之处。我想趁记忆尚热,为 OpenAI 也做一次同样真诚的复盘。
这里没有商业机密,更多的是对这个历史上最迷人的组织之一,在当前这个关键节点上的一些个人感悟。
我必须坦率地说,我的离开并非源于任何个人恩怨,恰恰相反,我的内心充满了矛盾。
从零到一的创始人,到三千人大公司里的一名员工,这种身份的转变本身就是一道难题。此刻的我,更渴望一个全新的开始。
但这份工作的质量,很有可能在未来再次将我吸引回来。毕竟,很难想象还有什么比构建通用人工智能更具深远影响力的事业。
大语言模型无疑是这十年来最重要的技术创新。我庆幸自己能亲历其发展,并有幸参与了 Codex 的发布。
当然,以下仅为我的个人观察,不代表公司立场。OpenAI 如浩瀚星海,我所见的,不过是其中一扇小小的窗户。
文化
要理解 OpenAI,首先要理解它惊人的成长速度。我加入时,公司刚过千人;一年后,已逾三千。我的司龄,竟然已能排进前 30%。
几乎所有领导者,如今的职责都与两三年前大相径庭。
如此迅猛的扩张,必然导致所有环节都面临考验:公司沟通、汇报结构、产品交付、人员管理,乃至招聘流程。
团队文化也因此千差万别。有的团队时刻在全力冲刺,有的团队则守护着耗时巨大的计算任务,还有的团队步调更为稳健。
因此,不存在某种单一的 OpenAI 体验。研究、应用和市场推广这三大板块,各自在截然不同的时间尺度上运作。
OpenAI 有一个很特别的地方:所有事情,我是指所有事情,都在 Slack 上完成。这里不存在邮件文化。我在职期间,收到的邮件总数大概不超过十封。
如果你不善于管理信息流,会觉得极度干扰。但若你能精心组织频道与通知,它也能变得相当高效。
OpenAI 的文化极其自下而上,在研究领域尤其如此。我初来乍到时,曾去打听下一季度的路线图,得到的答复是:我们没有那东西(当然,现在有了)。
好的想法可以来自任何角落,而且你很难预知哪颗种子能结出最丰硕的果实。这里的进步并非源于宏大的总体规划,而是在新研究的不断迭代中,一步步探索出来的。
正因如此,OpenAI 也极其推崇精英主义。历史上,公司领导者的晋升,首要标准就是他们提出卓越想法并将其落地的能力。
许多能力超群的领导者,其实并不擅长在全体大会上演讲或玩弄办公室政治。但在 OpenAI,这些远没有在其他公司那么重要。最好的想法,往往能最终胜出。
这里的人们有强烈的行动偏好。你想到什么,就可以直接动手去做。不同团队不约而同地想到类似的点子,是常有的事。
我最初就参与了一个内部项目,与后来的 ChatGPT Connectors 类似。在我们决定正式推出 Codex 前,内部至少有三四个不同的原型在流传。
这些探索通常由少数几个人在未经许可的情况下发起。一旦项目显露出潜力,团队便会迅速围绕它集结起来。
Codex 的负责人 Andrey 曾告诉我,应该把每位研究员都看作是独立的迷你 CEO。他们有强烈的意愿去探索自己的想法,看看能走多远。
这也带来一个推论:大多数研究课题的启动,都是靠一个有趣的技术难题去钓到一位研究员。如果一个问题被认为是无趣或已解决的,那它基本就不会有人碰。
优秀的研究管理者,其影响力巨大,但自身也极为稀缺。他们能将不同研究工作的点滴串联起来,最终促成一次更大规模的模型训练。优秀的 PM 也是如此。
与我共事的几位 ChatGPT 工程经理,是我见过最沉着冷静的客户。你感觉他们仿佛已经历过一切风浪,波澜不惊。
他们大多采取放手管理的风格,专注于招聘对的人,并为他们创造成功的环境。
OpenAI 能在瞬间调转方向。当我们获得新的信息时,选择做正确的事,远比固守原计划重要得多。
一个如此体量的公司仍能保持这种敏锐,令人瞩目——Google 显然已不具备。OpenAI 决策果断,一旦选定方向,便会倾尽全力。
公司也承受着外界巨大的审视压力。我出身于 B2B 企业服务领域,对此感到颇为震惊。媒体上爆出的新闻,往往比公司内部的官宣还要早。
当我告诉别人我在 OpenAI 工作时,对方的回应里总是带着一个早已成型的刻板印象。甚至有 Twitter 用户用机器人时刻监控着我们是否将要发布新功能。
这一切,使得 OpenAI 成了一个高度保密的地方。我无法向任何人透露工作的具体细节。公司内部有多个不同权限的 Slack 工作区,而收入和支出等核心数据更是被严密守护。
同时,OpenAI 比你想象的更加严肃,部分原因在于肩负的责任与期望异常沉重。
一方面,终极目标是构建通用人工智能,这意味着每一步都必须走对。另一方面,你正在构建一个被数亿用户依赖的产品,从医疗咨询到心理疏导。
更不用说,公司正身处全球最顶级的竞技场。我们密切关注着 Meta、Google 和 Anthropic 的一举一动,我相信他们亦然。全世界的主要政府,都在以敏锐的目光注视着这个领域。
尽管媒体时常中伤 OpenAI,但我遇到的每一个人,都真诚地在努力做正确的事。因为直面消费者,它在几大实验室中曝光度最高,也因此承受了最多的非议。
不过,你或许不应将 OpenAI 视为一个铁板一块的整体。我倾向于把它看作一个诞生于洛斯阿拉莫斯式环境的组织:一群顶尖的科学家和工匠,共同探索科学的无人区。
这个团体,碰巧催生了史上最具病毒传播效应的消费级应用。随后,又萌生了向政府和企业提供服务的雄心。
因此,在公司工作时间长短不同、部门不同的人,其目标和视角也大相径庭。你在公司待得越久,可能越倾向于用研究实验室或向善的非营利组织的滤镜来看待它。
我最欣赏的一点是,公司在普惠人工智能这件事上,真正做到了言行一致。最前沿的模型,并未被束之高阁,仅供签订了昂贵年费的企业客户使用。
世界上任何一个人,哪怕没有登录,都可以访问 ChatGPT 并获得答案。它的 API 也是开放的,任何人都能注册使用。
绝大多数模型,即使是最先进的专有模型,也都会很快地通过 API 开放给所有创业者。你可以想象一个与今天截然不同的、更为封闭的平行世界。OpenAI 在这方面的坚持,值得极大的赞誉,这也是其 DNA 的核心。
如果你常读 Zvi 或 Lesswrong 的文章,你可能会惊讶地发现,安全在这里受到的重视程度远超想象。
有非常多的人在为构建安全体系而努力。基于 OpenAI 的特性,我看到大家更关注实际风险,如仇恨言论、滥用、政治偏见、生物武器、自残、提示词注入等。
当然,这并非说没人关心理论风险,比如智能爆炸或权力寻求,绝对有团队在专注于此。但在我看来,那并非当前阶段的重心。
然而,大部分已完成的安全工作并未公开发表。OpenAI 确实应该在这方面做得更多,让外界了解他们的努力。
不同于那些在招聘会上大方派送周边的公司,OpenAI 几乎不怎么发礼物,即便是对新员工。
取而代之的是定期的“掉落”活动,你可以订购一些库存商品。第一次活动就因需求过于火爆而冲垮了商店网站。内部甚至还流传过一个帖子,教大家如何直接发送 JSON 请求来绕过拥堵。
与 GPU 的成本相比,几乎所有其他开销都可以忽略不计。举个例子:我们为 Codex 构建的一个小众功能,其单项 GPU 成本就与我们整个公司的部分基础设施开销相当。
OpenAI 或许是我见过其雄心之大,甚至令人感到一丝敬畏的组织。你可能觉得,拥有全球顶级的消费级应用就已足够,但它还渴望在数十个不同的战场上全面开花。
从 API 产品到深度研究,从硬件到编程代理,再到图像生成……以及一系列尚未公布的秘密项目。这里是一片能让想法野蛮生长并极速奔跑的沃土。
公司高度关注 Twitter 上的动态。如果你发的推文与 OpenAI 相关并走红,很有可能就会被内部看到并纳入考量。
我朋友开玩笑说:这家公司是靠 Twitter 的风向驱动的。作为一家消费品公司,这话或许不无道理。当然,严谨的数据分析始终存在,但感觉和风向同样至关重要。
OpenAI 的团队流动性和灵活性远超其他公司。在冲刺 Codex 发布时,我们需要几位经验丰富的 ChatGPT 工程师支援。
我们与他们的经理沟通了需求。第二天,两位顶尖高手就已经到位,准备投入战斗。没有等季度规划,也没有人力重新洗牌,一切都快得惊人。
领导层的存在感极强且深度参与。在 OpenAI 这样的公司,这或许不言自明,但每一位高管都显得极其投入。
你会在 Slack 上看到公司高层们频繁地参与讨论。这里没有甩手掌柜式的领导。
代码
OpenAI 使用一个庞大的单体代码仓库,其中绝大部分是 Python,但也混杂着日益增多的 Rust 服务和零星的 Go 服务。
这导致代码风格五花八门,因为 Python 的写法实在太多了。你既能看到谷歌十年老兵为可扩展性设计的精密库,也能看到新晋博士随手写的实验性代码。
FastAPI 和 Pydantic 分别是构建 API 和数据验证的标配,但并没有一套全公司强制执行的编码规范。
OpenAI 的所有服务都运行在 Azure 上。有趣的是,在我看来,其中真正值得信赖的服务只有三项:AKS、CosmosDB 和 BlobStore。
这里没有能与 AWS 的 Dynamo、Spanner、Bigtable、BigQuery 或 Aurora 等量齐观的替代品。IAM 的权限管理也比 AWS 局限得多。因此,公司内部有强烈的自研倾向。
在工程人才方面,存在一条非常明显的Meta 到 OpenAI的人才输送管道。OpenAI 在很多方面都酷似早期的 Meta:一款现象级应用、尚不成熟的基础设施,以及对速度的极致追求。
从 Meta 和 Instagram 引入的基础设施人才,能力普遍非常强。
将这些因素结合起来,你会发现 OpenAI 的许多核心基础设施都有着 Meta 的影子。例如,内部重新实现了一套类似 Meta 的 TAO 系统,还有一个在边缘网络整合身份认证的项目。我相信还有更多我不了解的类似努力。
对话这一概念已深入骨髓。自 ChatGPT 取得巨大成功后,大量代码库都围绕着消息和对话这两个基本单元来构建。
这些设计已经如此根深蒂固,以至于你想绕开它们,就得承担相当大的风险。我们在 Codex 中虽稍有偏离,但仍大量借鉴了过往的经验。
代码即决策。这里没有中央架构委员会来做规划,决策通常由具体执行的团队来制定。
这种模式带来了极强的行动力,但也导致代码库中存在大量重复造轮子的现象。我至少见过六七个功能类似的队列管理或代理循环库。
在某些领域,快速膨胀的团队与匮乏的工具之间的矛盾也开始显现。比如,后端的单体服务 sa-server 成了代码的垃圾场。
主干分支的持续集成失败的频率远超预期。一个测试用例,即便并行运行且只考虑部分依赖,在 GPU 上也可能要跑上 30 分钟。
这些问题并非无解,但它们提醒我们,这类工程挑战无处不在,并且会在极速扩张中被急剧放大。值得称赞的是,内部团队正投入巨大的精力来改善这一切。
其它收获
我真正理解了一个顶级消费品牌意味着什么。直到我参与 Codex 项目,才对此有了切身体会。所有指标都围绕“专业版订阅数”展开。
即使是 Codex 这样面向开发者的产品,我们思考的出发点也是个人使用,而非团队。
这对我这个 B2B 背景的人来说,是一次彻底的思维重塑。你只需按下一个开关,流量便会从第一天起汹涌而至。
我从宏观层面理解了大型模型是如何训练的。这是一个从实验到工程的连续过程。
多数想法始于小规模实验。若结果喜人,便会被纳入更大规模的训练中。实验不仅是调整算法,更是精调数据配比并细致分析结果的艺术。
而一次大规模的训练,其复杂程度堪比一项浩大的分布式系统工程。你会遇到各种意想不到的极端状况,而调试它们,便是你的职责。
我学会了如何做 GPU 算力规划。在 Codex 发布前,我们必须预测负载容量需求,那是我第一次真正对 GPU 进行基准测试。
核心要点是:你应该从最终的延迟要求(如总延迟、token 数、首个 token 响应时间)出发,进行反向推导,而不是自下而上地分析单个 GPU 的极限。模型的每次迭代,都可能彻底改变负载模式。
我学会了如何在一个大型 Python 代码库中高效工作。我之前的公司主要使用 Go 和 TypeScript,代码库的广度远不及 OpenAI。
在这里,我学到了大量关于如何根据开发者数量来扩展代码库的实践。你必须建立更多的护栏,以确保代码默认可用、主干纯净和难以误用。
发布 Codex
我在 OpenAI 的最后三个月,浓墨重彩的一笔便是发布 Codex。这无疑是我职业生涯最高光的时刻之一。
时间回到 2024 年 11 月,OpenAI 定下了在 2025 年发布一款编程代理的目标。到了 2025 年 2 月,我们内部已经有了几个效果不错的原型工具。
我们感受到了市场的压力,也看到了模型在编程领域日益强大的潜力,推出一款专注编程的代理迫在眉睫。
为此,我提前结束了陪产假,投身于 Codex 的发布。我回来仅一周,两个团队便经历了一次(略带混乱的)合并,随即开始了疯狂的冲刺。
从写下第一行代码到产品最终上线,整个过程只用了短短 7 周。
那段时间,可能是我近十年来工作最拼命的日子。几乎每晚都工作到深夜,清晨 5:30 被新生儿的啼哭唤醒,7 点又匆匆赶往办公室,周末也几乎无休。
我们整个团队都在奋力向前,因为每一周都至关重要。那感觉,仿佛又回到了在 YC 孵化器的时光。
很难用语言形容这种节奏有多么不可思议。我从未见过任何规模的组织,能在如此短的时间内,将一个想法变成一个功能完备、免费开放的产品。
它的工程量也绝非微不足道。我们构建了容器运行时、优化了代码库下载、为代码编辑微调了专属模型、处理了各种 Git 操作、设计了全新的交互界面、打通了网络访问……最终呈现出一款体验令人愉悦的产品。
无论外界如何评价,OpenAI 骨子里依然流淌着那种勇于发布、敢于冲锋的精神。
好消息是,对的人聚在一起,真的能创造奇迹。我们这个核心团队,由大约 8 名工程师、4 名研究员、2 名设计师、2 名市场人员和 1 名产品经理组成。
如果没有这个精英团队,我认为项目必将失败。大家几乎不需要指令,但需要大量的协调。如果你有幸与 Codex 团队的任何一员共事,请相信,他们中的每一位都出类拔萃。
发布前夜,我们五个人一直忙到凌晨四点,才最终完成了主服务的部署。然后又马不停蹄地赶回办公室,为早上八点的发布会和直播做准备。
当功能开关开启的那一刻,我们眼看着流量如潮水般涌入。我从未见过一个产品,仅凭在侧边栏的出现,就能获得如此即时的巨大关注。这就是 ChatGPT 的力量。
在产品形态上,我们选择了完全异步的模式。用户可以启动一个任务,然后让代码代理在自己的环境中独立运行,完成后再以一个代码合并请求的形式交还结果。
我们的赌注是,在编程的终极形态中,用户会像对待同事一样对待编程代理。
这在当下是一场赌博。我们正处在一个奇特的阶段:模型很好,但还不够卓越。它们能持续工作几分钟,但还无法胜任数小时的任务。
用户对模型能力的信任度参差不齐,而我们自己对模型的真正潜力,也仍在探索之中。
但着眼长远,我坚信,未来绝大多数的编程工作都会更接近 Codex 的模式。在此期间,见证所有相关产品的演进,将是一件非常有趣的事。
Codex(这或许不令人意外)非常擅长在大型代码库中工作和导航。它与其他工具最大的不同,在于能同时启动多个任务并让你比较它们的结果。
最近我看到有公开数据显示,Codex 生成的代码合并请求已达 63 万个。这意味着发布后的 53 天里,团队里的每位工程师平均贡献了 7.8 万个公开的合并请求。我感觉自己从未做过比这更有影响力的事情。
临别赠言
说实话,我最初对加入 OpenAI 心存疑虑。我不确定牺牲自由、向人汇报、成为庞大机器上的一个小齿轮,会是怎样的体验。因此,我一直对此保持低调。
我曾希望从这段经历中获得三样东西:
建立对模型训练和其能力边界的直觉。 与卓越的人共事,并向他们学习。 发布一款伟大的产品。
如今回望这一年,我认为这是我做过的最正确的决定之一。我很难想象,在别处能有如此密集的学习和成长。
如果你是一位创始人,正感觉自己的事业陷入瓶颈,那么你应该:1)要么深刻反思,如何才能创造更多破局的机会;2)要么果断加入一家顶尖的人工智能实验室。
现在,是创造的黄金时代,更是窥见未来的绝佳时机。
在我看来,通往通用人工智能的道路,目前是三强争霸的格局:OpenAI、Anthropic 和 Google。
基于各自不同的基因(消费者导向、企业导向、还是基石稳固的基础设施+数据),它们会走出三条截然不同的道路。[^6]
无论在哪一家工作,都将是一次让你眼界大开的非凡体验。
感谢我的妻子 Leah,在我深夜工作的日子里,她给予了无与伦比的支持,并承担了绝大部分育儿的辛劳。
感谢 PW、GDB 和 Rizzo 给了我这次宝贵的机会。
感谢最初带我入门的团队伙伴们。
也感谢 Codex 核心团队的每一位成员,你们给了我一段终身难忘的旅程。这次冲刺,我永志不忘。
Wham.
[^6]: 我们也看到 Meta 近期引入了一些重量级人物,xAI 的 Grok 4 在基准测试中表现不俗,Mira 和 Ilya 的团队也人才济济。格局或许会变,但他们还有很长的路要追赶。
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!