Claude 小升级就赢了OpenAI 9年“开源神作”？高强度推理直接歇菜、幻觉率高达50%，写作还被Kimi 2吊锤？

整理｜华卫

刚刚，OpenAI 发布了首个开源语言模型系列 gpt-oss，包括 gpt-oss-120b 和 gpt-oss-20b 两款语言模型：完全可定制，提供完整的思维链（CoT）并支持结构化输出。

现在，gpt-oss-120b 和 gpt-oss-20b 的权重均可在 Hugging Face 上免费下载，且它们原生采用 MXFP4 量化格式。这使得 gpt-oss-120B 模型可在 80GB 内存内运行，而 gpt-oss-20b 仅需 16GB 内存。

下载链接：https://huggingface.co/collections/openai/gpt-oss-68911959590a1634ba11c7a4

Github 地址：https://github.com/openai/gpt-oss

值得一提的是，几乎与 gpt-oss 开源同时，谷歌 Deepmind 宣布推出 Genie 3 ，Anthropic 放出了 Claude Opus 4.1。有网友感叹，“我们生活在什么样的时代。”马斯克也转发了这条帖子，并配了意味深长的词和表情。

资讯配图

Claude Opus4.1 的最大亮点在于编程性能提升。在 SWE-bench Verified 编程评测中，其表现高达 74.5%。GitHub 上的开发者们普遍认为 Opus4.1 在多文件代码重构等任务上表现优于其前代。此外，新模型的无害回复率也从上代 97.27 % 提升到了 98.76 %。

有用户第一时间将 Claude Opus 4.1 与 OpenAI 的 gpt-oss 进行了编码能力方面的对比，实测结果是 Claude Opus 4.1 最强且“出乎意料地稳”。此外，其提到，gpt-oss-120b 用起来要谨慎，写代码特别不稳定；gpt-oss-20b 反而效果挺好。

训练过程全公开，

采用技术对齐先进推理模型

据悉，gpt-oss 模型系列的训练结合了强化学习以及借鉴 OpenAI 最先进内部模型（包括 o3 和其他前沿系统）的技术，能以低成本实现强大的实际性能。

“gpt-oss 模型采用我们最先进的预训练和后训练技术进行训练，特别注重推理能力、效率以及在各种部署环境中的实际可用性。”

OpenAI 指出，每个模型都是一个 Transformer，利用混合专家（MoE[2]）来减少处理输入所需的活跃参数数量。gpt-oss-120b 每个令牌激活 51 亿个参数，而 gpt-oss-20b 每个令牌激活 36 亿个参数，两款模型分别拥有 1170 亿和 210 亿个总参数。

这些模型采用交替的密集型和局部带状稀疏注意力模式，类似于 GPT-3。为提高推理和内存效率，这些模型还使用分组多查询注意力，组大小为 8。其使用旋转位置嵌入（RoPE[4]）进行位置编码，原生支持长达 128k 的上下文长度。

两款模型的后训练过程与 o4-mini 类似，包括有监督微调阶段和高计算量的强化学习阶段。OpenAI 表示，其目标是使模型与 OpenAI 模型规范对齐，并训练其在生成答案前应用思维链推理和工具使用能力。“通过采用与我们最先进的专有推理模型相同的技术，这些模型在后训练后展现出卓越的能力。”

与 API 中的 OpenAI o 系列推理模型类似，这两款开源模型支持低、中、高三种推理力度，可在延迟和性能之间进行权衡，开发者只需在系统消息中用一句话即可设置推理强度。

此外，OpenAI 在以英语为主的纯文本数据集上训练这些模型，重点涵盖 STEM、编程和通用知识领域。使用的分词器是用于 OpenAI o4-mini 和 GPT-4o 的分词器的超集——o200k_harmony，目前该分词器也同步开源了。

据介绍，这些模型基于灵活的 Apache 2.0 许可证发布，在推理任务上的表现优于同规模的开源模型，展现出强大的工具使用能力，并且经过优化，可在消费级硬件上高效部署。

其中，gpt-oss-120b 模型在核心推理基准测试上的表现接近 OpenAI o4-mini，同时能在单块 80GB GPU 上高效运行。gpt-oss-20b 模型在常见基准测试中的结果与 OpenAI o3-mini 相近，且仅需 16GB 内存就能在边缘设备上运行，非常适合设备端使用场景、本地推理或无需昂贵基础设施的快速迭代。

在工具使用、少样本函数调用、思维链推理（从 Tau-Bench 智能体评估套件的结果中可看出）和 HealthBench 方面，这两款模型也表现出色，甚至超过了 OpenAI o1 和 GPT-4o 等专有模型。

OpenAI 称，两款开源模型与其响应 API 兼容，可设计用于智能体工作流，具有出色的指令遵循能力、工具使用能力（如网页搜索或 Python 代码执行）和推理能力，还能够为不需要复杂推理或以极低延迟的最终输出为目标的任务调整推理强度。

得分不如 DeepSeek R1，

实测效果槽点多多？

此前 OpenAI 已经公开了包括 Whisper 和 CLIP 在内的其他模型，但 gpt-oss 模型是自 GPT-2 以来其推出的首批开源语言模型。

吴恩达第一时间评价道，“从我的快速测试来看，gpt-oss-120b 看起来非常强大。”还有网友表示，“这可能是 OpenAI 第一次不辜负它的名字。”

资讯配图

不过，Artificial Analysis 发布的测试结果是：“对 OpenAI 的 gpt-oss 模型的独立基准测试显示，gpt-oss-120b 是美国最智能的开源模型，其智能水平虽落后于 DeepSeek R1 和 Qwen3 235B，但在效率方面具有优势。”

具体来说，尽管 gpt-oss-120b 在得分上未能超过 DeepSeek R1 0528 的 59 分和 Qwen3 235B 2507 的 64 分，但其总参数和活跃参数数量均远小于这两款模型。DeepSeek R1 的总参数为 6710 亿，活跃参数为 370 亿，且原生以 FP8 精度发布，这使其总文件大小（及内存需求）是 gpt-oss-120b 的 10 倍以上。

资讯配图

还有网友指出，“经过九年的研发，OpenAI 发布了一款性能不及 xAI 初始模型之一的开源产品，而 xAI 成立仅两年时间。”但对此，也有其他网友反驳道，“OpenAI 的 gpt-oss 并非其旗舰模型，而是一个开源版本，将其与 Grok 进行比较具有误导性。”

资讯配图

另值得注意的是，OpenAI 的开源语言模型似乎比其最新的 AI 推理模型 o3 和 o4-mini 产生幻觉的程度还要高得多。

OpenAI 发现，在 PersonQA（该公司用于衡量模型对人类认知准确度的内部基准）上，gpt-oss-120b 和 gpt-oss-20b 在回答问题时分别产生了 49% 和 53% 的幻觉。这比 OpenAI o1 模型（得分为 16%）的幻觉率高出三倍多，也高于其 o4-mini 模型（得分为 36%）。

根据 OpenAI 的内部测试，o3 和 o4-mini 已经比该公司之前的推理模型 o1、o1-mini 和 o3-mini 以及 OpenAI 传统的“非推理”模型（如 GPT-4o）产生幻觉的频率都更高。该公司此前曾表示，尚不清楚具体原因。但 OpenAI 在一份白皮书中表示，这是“意料之中的，因为小型模型的世界知识比大型前沿模型更少，更容易产生幻觉。”

有网友表示，“完全没有任何实用性的模型，估计是只用了大模型输出的跑分测试的合成数据进行训练，这也能拿的出手吗？”

而 gpt-oss 的实测效果似乎也差强人意。一位用户表示，他从初步测试中发现了不少 gpt-oss 的缺点，包括以下方面：

创意写作不行，比 Kimi 2、o3 差远了。
Tau-Bench 基准测试显示，gpt-oss-20b 在工具调用可靠性方面明显逊色（54.8 分），而 120b（67.8 分）与 o3（70.4 分）不相上下，这有点可惜。
高强度推理模式实际上根本没用，它经常陷入近乎无限的循环并超时，要么就是用户自己先耗不下去了。

参考链接：

https://openai.com/index/introducing-gpt-oss/

https://techcrunch.com/2025/08/05/openai-launches-two-open-ai-reasoning-models/?utm_source=chatgpt.com

声明：本文为 AI 前线整理，不代表平台观点，未经许可禁止转载。

会议推荐

首届 AICon 全球人工智能开发与应用大会（深圳站）将于 8 月 22-23 日正式举行！本次大会以 “探索 AI 应用边界” 为主题，聚焦 Agent、多模态、AI 产品设计等热门方向，围绕企业如何通过大模型降低成本、提升经营效率的实际应用案例，邀请来自头部企业、大厂以及明星创业公司的专家，带来一线的大模型实践经验和前沿洞察。一起探索 AI 应用的更多可能，发掘 AI 驱动业务增长的新路径！