gpt-oss：OpenAI 终于认可了开源生态

这是 OpenAI 自 GPT-2 以来首次发布开放语言模型，它对整个生态系统究竟意味着什么。

NATHAN LAMBERT

2025 年 8 月 6 日

今天，OpenAI 发布了两款开放权重的、仅限文本的推理模型。

这两款模型均为混合专家 (MoE) 架构，其规模经过精心设计，能在一系列硬件上高效运行，从个人电脑的 GPU 到云端服务器都毫无压力。

这些模型采用了 Apache 2.0 这一宽松的许可证，意味着任何人都可以用它们来蒸馏出新模型，或直接部署到商业产品中，没有任何后续限制。

两款模型的规模

其中，较小的 gpt-oss-20B 模型拥有 36 亿激活参数和 210 亿总参数；较大的 gpt-oss-120B 模型则拥有 51 亿激活参数。

它们的架构选择，也印证了其他领先开放模型已经展现出的行业趋势。

真正的亮点

这次发布的真正亮点，在于它给开放模型的性能和行业策略带来了颠覆性的变化。

因为这次，是 AI 领域的头号玩家，发布了一款甚至会冲击自家部分付费 API 业务的开放模型。

我们稍后会深入技术细节，但本文的核心在于探讨：OpenAI 在 GPT-2 之后首次拥抱开放，这背后是多么巨大的转变。

“
较大的 120B 模型，在核心推理能力上，几乎与 OpenAI 自家的 o4 mini 模型不相上下。这对整个生态来说，无疑是一个里程碑式的时刻。

这次发布说明了什么？

首先，OpenAI 用行动证明，过去对开放模型的许多担忧被夸大了。

事实显示，开放模型的边际风险远没有一些人想的那么极端，至少在纯文本领域是这样。多模态模型的风险确实要大得多。

当 Meta 和中国的公司向 OpenAI 展示了开放模型的安全性后，为 OpenAI 今天的发布铺平了道路。

其次，OpenAI 此次透露的技术细节远超以往。

尽管官方博文只是点到为止，但社区已经开始深入挖掘，试图理解其内部的乾坤。

这包括我们首次看到 OpenAI 推理模型原始的思维链，以及它如何像 o3 模型一样被训练来使用工具。

其他值得关注的细节还有：全新的 “harmony” 提示词格式、与 API 一致的低中高三档“推理努力”设置，以及一个证明了基础架构潜力巨大的范例。

最后，OpenAI 对 API 市场开启了新一轮的焦土打击。

他们不惜冲击自家产品，用一个备受信赖的品牌和一个宽松的许可证，释放了一个极其强大的模型。

虽然开放模型的部署总会比 API 慢一些，但这次的准备已经足够充分，旨在让它尽可能快地普及开来。

现在，所有与 o4 mini, Claude Haiku, Gemini Flash 等模型竞争的 API 服务，都将直面 gpt-oss 的挑战。

成本与战略

OpenAI 的 o4 mini 模型目前定价约为每百万输入 token 1.1 美元。而运行 gpt-oss 这款开放模型，成本至少能降低 10 倍。

这背后显然有深远的战略考量，它表明 OpenAI 对自己的核心价值有了更清晰的判断。

OpenAI 有所保留的领域

有趣的是，OpenAI 明确表示，对于寻求多模态、内置工具和平台无缝集成的用户，API 仍然是最佳选择。

他们主动放弃了这些功能，背后原因我们稍后会探讨。

在我看来，这背后顶层的战略意图可能有两点：

一是在 GPT-5 发布前，通过成本优势让现有 API 模型显得过时，从而用 GPT-5 稳稳占领最高端的市场。
二是 OpenAI 可能意识到，模型本身不再是差异化优势，真正的护城河是持续增长的用户群——ChatGPT 的周活跃用户很快将突破 10 亿。

当然，还有其他原因，但 OpenAI 向来只做最有利于实现自身目标的事。

一些让人摸不着头脑的地方

当然，这次发布也并非完美，其中一些细节和话外之音更能揭示 OpenAI 的策略。

关于命名：gpt-oss 这个名字有点尴尬，容易让人困惑，但对营销却很有效。

大公司模糊开源的定义已是常态。这个名字清晰地表明，它的目标用户不是真正的开源社区，而是那些想在商业上尝试开源AI的企业。

关于基础模型： OpenAI 并未发布用于训练该模型的基础版本。

这对于研究人员来说是个不小的遗憾。因为这种稀疏、低精度的 MoE 模型，对于学术研究和二次开发并不友好。

研究者们真正需要的是参数量在 10 亿到 70 亿之间的稠密基础模型，那才是开放社区里更具长远价值的资产。

架构趋势的再次确认

在讨论未知数之前，我必须强调一下它的架构。gpt-oss 的设计再次印证了整个行业的模型发展趋势。

近期的前沿开放模型，几乎无一例外地采用了非常稀疏的 MoE 架构。

目前，MoE 的稀疏性设计可谓是王道。

例如 DeepSeek V3、Kimi K2 等模型都展现了极高的稀疏度。gpt-oss 的稀疏因子也完全符合这一潮流，并且未来模型的稀疏度可能还会继续增加。

还需要测试来验证的几个点

1. 原生量化的影响

模型发布时就自带了 MXFP4 格式的量化。这可能让拥有最新硬件的用户受益，但也可能在某些旧版软件环境中引发问题。

当然，这也可能是个优点。更大的模型被量化到 4 比特精度，使得它能在 A/H100 这样的 80GB 显存 GPU 上运行。

2. 安全性微调的限制

OpenAI 声称采用了新技术，让人无法通过微调移除模型的安全限制。这是个行业长期关注的问题。

核心问题是，这会多大程度上影响模型的正常微调能力？社区需要时间来检验。

很多人会把“我们让这个模型无法被破解”看作一个挑战，这在越狱研究社区里势必会引发新一轮的攻防战。

3. 工具使用的混乱

模型被训练来调用工具，但目前开放模型的工具使用生态还相当混乱。

有早期测试者提到，模型有时会“幻觉”出训练时才存在的工具调用。这虽然不是无法解决，但可能会拖慢模型的普及速度。

不过，这也给了社区一个机会去逆向工程 OpenAI 内部究竟使用了哪些工具。

4. 开放环境下的基准测试

我们需要在开放的、统一的设施上重新评估这款模型。

封闭实验室的评估标准越来越定制化，这在模型开放后，往往会与社区的复现结果产生摩擦。

所以，本文并非对模型性能的最终评判，而是对其发布策略和行业机会的解读。

总结与展望

总的来说，我会给 OpenAI 这次发布打一个高分。他们确实听取了社区的反馈。

但要想真正赢得研究者们的信赖，他们需要承担更多风险，发布像基础模型这样更易于修改和研究的版本。

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！