GPT-5实测数据出炉：代码、健康能力显著增强，但在ARC-AGI-2上不敌Grok 4

“
我们带着一期夏季特别节目回归，本期专门讨论 GPT-5 的发布、性能数据、市场反响以及我们的亲身体验。

日期：2025年8月14日

以下是我们为您梳理的关于 OpenAI 新模型的关键信息：

整体概览

GPT-5 并非单一模型，而是一个系统：它包含一个用于处理大多数请求的快速主模型，一个专门为疑难案例投入计算资源的思维模型，以及一个实时决定在 ChatGPT 中使用哪个模型的路由器。

当您的配额用尽时，系统会将您转至 mini 版本（在 API 中还提供 nano 版本）。您可以通过明确指令（例如 "think hard about this"）来强制启用深度思考模式；此外，付费订阅用户可以在模型选择器中选择 “GPT-5 Thinking”。

简而言之，OpenAI 简化了流程，但又没完全简化。

更少的幻觉

在激活网络搜索的情况下，GPT-5 犯下的事实性错误比 GPT-4o 少了约 45%，而在思维模式下，比 OpenAI o3 少了约 80%。在欺骗测试中（例如，让模型声称看到了本不存在的图片），GPT-5 的思维模式相比 o3 也显著降低了此类行为的发生率。

我们需要记得，o3 是一个在某些任务上进步巨大，但幻觉问题也相当严重的模型。

迎合行为减少

OpenAI 进行了训练后调整以减少模型的奉承行为；新增的个性化设置有助于调节其语气。

显著提升的基准测试

OpenAI 报告了以下成绩：AIME-2025 达到 94.6%（无工具），SWE-bench Verified 达到 74.9%，Aider Polyglot 达到 88% (pass@2)，MMMU 达到 84.2%，以及 HealthBench Hard 达到 46.2%；GPT-5 Pro 在无工具的 GPQA 测试中达到了最佳水平 (SOTA)。

他们只发布了与自家先前模型的对比（详见其系统卡片），但这些数据反映了模型在写作、编码和健康领域的进步。

与其他模型的基准对比：

Chatbot Arena (LMSYS)：在 WebDev Arena 中，GPT-5 位居榜首；而在 Text Arena 中，它位于领先集团，但并未完全拉开差距。这是积极的信号，但尚未形成压倒性优势。详见 LMArena。
ARC-AGI-2：GPT-5 在此表现并不突出。François Chollet 指出，GPT-5（无工具）的得分是 9.9%，而 Grok 4 Heavy 的得分是 15.9%。
HLE (Humanity’s Last Exam)：GPT-5 Pro（有工具）获得了约 42% 的分数，落后于 Grok 4 Heavy 的 44.4%。
自主性 (METR)：GPT-5 思维模式在 50% 成功率下的时间范围约为 2 小时 15 分钟 (95% 置信区间为 65 分钟 – 4 小时 30 分钟)，优于 o3 的 1 小时 30 分钟。该指标用于估算一个配备工具的智能体能够完成多少人类工作时长。

在软件工程和健康领域，改进是显而易见的；但在 ARC-AGI-2 这类通用推理任务上，其进步并非决定性的。那么，路由器的策略赌注成功了吗？ Sam Altman 辩护称，随着 GPT-5 的推出，用户对推理模型（即思维模型）的日常使用率显著上升：免费用户从低于 1% 上升到 7%，Plus 用户从 7% 上升到 24%。

然而，与此同时，初期的用户体验却非常负面。OpenAI 坚称这是由于路由器运行出现故障所致。

此外，他们已经为付费用户恢复了 GPT-4o，并修改了最初会降低高质量模型服务质量和/或限制其消息数量的条款。

我们的实践建议

如果你是写作者或研究员：当你需要更少花哨辞藻和更严格的事实核查时，请激活思维模式（通过输入 “think hard about this”）或直接使用 GPT-5 Pro (如果可用)。你会发现它会给出更多不知道的回答，而不是凭空捏造。
如果你是程序员：在处理多步骤任务时（例如，类似 SWE-bench 的补丁修复、大规模重构），请使用思维模式。如果路由器将你降级到 mini 模式，请强制切换回思维模式或在菜单中明确选择它。
如果你是高级用户：在每次会话中，请检查你当前使用的是哪个模型，并在任务需要时，毫不犹豫地手动固定在思维模式。善用「自动/快速/思维」等模式来平衡延迟与质量。
如果你使用 API：请根据 400K/128K（上下文/生成）的预算和每百万 token 的价格（gpt-5 模型为输入10 输出；mini 和 nano 更便宜）来规划计算和成本。避免使用那些在非必要情况下会产生大量输出的模板。

结论

它是个好模型吗？是的。它是一次量子飞跃吗？并非如此。

GPT-5 在许多专业人士关心的领域（幻觉更少的写作、更稳健的代码、更安全的健康咨询）改进了 GPT-4o 和 o3，并通过一个（在正常工作时能）减少使用摩擦的路由器统一了用户体验。但是，用户的感知体验高度依赖于路由策略：如果你期望的是思维模式却被分配到了主模式，你会感到明显的落差和失望。

原文地址：https://substack.com/inbox/post/170895211

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！