这是 OpenAI 自 GPT-2 以来首次发布开放语言模型,它对整个生态系统究竟意味着什么。
NATHAN LAMBERT
2025 年 8 月 6 日
今天,OpenAI 发布了两款开放权重的、仅限文本的推理模型。
这两款模型均为混合专家 (MoE) 架构,其规模经过精心设计,能在一系列硬件上高效运行,从个人电脑的 GPU 到云端服务器都毫无压力。
这些模型采用了 Apache 2.0 这一宽松的许可证,意味着任何人都可以用它们来蒸馏出新模型,或直接部署到商业产品中,没有任何后续限制。
两款模型的规模
其中,较小的 gpt-oss-20B
模型拥有 36 亿激活参数和 210 亿总参数;较大的 gpt-oss-120B
模型则拥有 51 亿激活参数。
它们的架构选择,也印证了其他领先开放模型已经展现出的行业趋势。
真正的亮点
这次发布的真正亮点,在于它给开放模型的性能和行业策略带来了颠覆性的变化。
因为这次,是 AI 领域的头号玩家,发布了一款甚至会冲击自家部分付费 API 业务的开放模型。
我们稍后会深入技术细节,但本文的核心在于探讨:OpenAI 在 GPT-2 之后首次拥抱开放,这背后是多么巨大的转变。
“较大的 120B 模型,在核心推理能力上,几乎与 OpenAI 自家的 o4 mini 模型不相上下。这对整个生态来说,无疑是一个里程碑式的时刻。
这次发布说明了什么?
首先,OpenAI 用行动证明,过去对开放模型的许多担忧被夸大了。
事实显示,开放模型的边际风险远没有一些人想的那么极端,至少在纯文本领域是这样。多模态模型的风险确实要大得多。
当 Meta 和中国的公司向 OpenAI 展示了开放模型的安全性后,为 OpenAI 今天的发布铺平了道路。
其次,OpenAI 此次透露的技术细节远超以往。
尽管官方博文只是点到为止,但社区已经开始深入挖掘,试图理解其内部的乾坤。
这包括我们首次看到 OpenAI 推理模型原始的思维链,以及它如何像 o3 模型一样被训练来使用工具。
其他值得关注的细节还有:全新的 “harmony” 提示词格式、与 API 一致的低中高三档“推理努力”设置,以及一个证明了基础架构潜力巨大的范例。
最后,OpenAI 对 API 市场开启了新一轮的焦土打击。
他们不惜冲击自家产品,用一个备受信赖的品牌和一个宽松的许可证,释放了一个极其强大的模型。
虽然开放模型的部署总会比 API 慢一些,但这次的准备已经足够充分,旨在让它尽可能快地普及开来。
现在,所有与 o4 mini, Claude Haiku, Gemini Flash 等模型竞争的 API 服务,都将直面 gpt-oss
的挑战。
成本与战略
OpenAI 的 o4 mini 模型目前定价约为每百万输入 token 1.1 美元。而运行 gpt-oss
这款开放模型,成本至少能降低 10 倍。
这背后显然有深远的战略考量,它表明 OpenAI 对自己的核心价值有了更清晰的判断。
OpenAI 有所保留的领域
有趣的是,OpenAI 明确表示,对于寻求多模态、内置工具和平台无缝集成的用户,API 仍然是最佳选择。
他们主动放弃了这些功能,背后原因我们稍后会探讨。
在我看来,这背后顶层的战略意图可能有两点:
一是在 GPT-5 发布前,通过成本优势让现有 API 模型显得过时,从而用 GPT-5 稳稳占领最高端的市场。 二是 OpenAI 可能意识到,模型本身不再是差异化优势,真正的护城河是持续增长的用户群——ChatGPT 的周活跃用户很快将突破 10 亿。
当然,还有其他原因,但 OpenAI 向来只做最有利于实现自身目标的事。
一些让人摸不着头脑的地方
当然,这次发布也并非完美,其中一些细节和话外之音更能揭示 OpenAI 的策略。
关于命名:gpt-oss
这个名字有点尴尬,容易让人困惑,但对营销却很有效。
大公司模糊开源的定义已是常态。这个名字清晰地表明,它的目标用户不是真正的开源社区,而是那些想在商业上尝试开源AI的企业。
关于基础模型: OpenAI 并未发布用于训练该模型的基础版本。
这对于研究人员来说是个不小的遗憾。因为这种稀疏、低精度的 MoE 模型,对于学术研究和二次开发并不友好。
研究者们真正需要的是参数量在 10 亿到 70 亿之间的稠密基础模型,那才是开放社区里更具长远价值的资产。
架构趋势的再次确认
在讨论未知数之前,我必须强调一下它的架构。gpt-oss
的设计再次印证了整个行业的模型发展趋势。
近期的前沿开放模型,几乎无一例外地采用了非常稀疏的 MoE 架构。
目前,MoE 的稀疏性设计可谓是王道。
例如 DeepSeek V3、Kimi K2 等模型都展现了极高的稀疏度。gpt-oss
的稀疏因子也完全符合这一潮流,并且未来模型的稀疏度可能还会继续增加。
还需要测试来验证的几个点
1. 原生量化的影响
模型发布时就自带了 MXFP4 格式的量化。这可能让拥有最新硬件的用户受益,但也可能在某些旧版软件环境中引发问题。
当然,这也可能是个优点。更大的模型被量化到 4 比特精度,使得它能在 A/H100 这样的 80GB 显存 GPU 上运行。
2. 安全性微调的限制
OpenAI 声称采用了新技术,让人无法通过微调移除模型的安全限制。这是个行业长期关注的问题。
核心问题是,这会多大程度上影响模型的正常微调能力?社区需要时间来检验。
很多人会把“我们让这个模型无法被破解”看作一个挑战,这在越狱研究社区里势必会引发新一轮的攻防战。
3. 工具使用的混乱
模型被训练来调用工具,但目前开放模型的工具使用生态还相当混乱。
有早期测试者提到,模型有时会“幻觉”出训练时才存在的工具调用。这虽然不是无法解决,但可能会拖慢模型的普及速度。
不过,这也给了社区一个机会去逆向工程 OpenAI 内部究竟使用了哪些工具。
4. 开放环境下的基准测试
我们需要在开放的、统一的设施上重新评估这款模型。
封闭实验室的评估标准越来越定制化,这在模型开放后,往往会与社区的复现结果产生摩擦。
所以,本文并非对模型性能的最终评判,而是对其发布策略和行业机会的解读。
总结与展望
总的来说,我会给 OpenAI 这次发布打一个高分。他们确实听取了社区的反馈。
但要想真正赢得研究者们的信赖,他们需要承担更多风险,发布像基础模型这样更易于修改和研究的版本。
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!