“我们带着一期夏季特别节目回归,本期专门讨论 GPT-5 的发布、性能数据、市场反响以及我们的亲身体验。
日期:2025年8月14日

以下是我们为您梳理的关于 OpenAI 新模型的关键信息:
整体概览
GPT-5 并非单一模型,而是一个系统:它包含一个用于处理大多数请求的快速主模型,一个专门为疑难案例投入计算资源的思维模型,以及一个实时决定在 ChatGPT 中使用哪个模型的路由器。
当您的配额用尽时,系统会将您转至 mini 版本(在 API 中还提供 nano 版本)。您可以通过明确指令(例如 "think hard about this"
)来强制启用深度思考模式;此外,付费订阅用户可以在模型选择器中选择 “GPT-5 Thinking”。
简而言之,OpenAI 简化了流程,但又没完全简化。
更少的幻觉
在激活网络搜索的情况下,GPT-5 犯下的事实性错误比 GPT-4o 少了约 45%,而在思维模式下,比 OpenAI o3 少了约 80%。在欺骗测试中(例如,让模型声称看到了本不存在的图片),GPT-5 的思维模式相比 o3 也显著降低了此类行为的发生率。
我们需要记得,o3 是一个在某些任务上进步巨大,但幻觉问题也相当严重的模型。
迎合行为减少
OpenAI 进行了训练后调整以减少模型的奉承行为;新增的个性化设置有助于调节其语气。
显著提升的基准测试
OpenAI 报告了以下成绩:AIME-2025 达到 94.6%(无工具),SWE-bench Verified 达到 74.9%,Aider Polyglot 达到 88% (pass@2
),MMMU 达到 84.2%,以及 HealthBench Hard 达到 46.2%;GPT-5 Pro 在无工具的 GPQA 测试中达到了 最佳水平 (SOTA)。
他们只发布了与自家先前模型的对比(详见其系统卡片),但这些数据反映了模型在写作、编码和健康领域的进步。
与其他模型的基准对比:
Chatbot Arena (LMSYS):在 WebDev Arena 中,GPT-5 位居榜首;而在 Text Arena 中,它位于领先集团,但并未完全拉开差距。这是积极的信号,但尚未形成压倒性优势。详见 LMArena。 ARC-AGI-2:GPT-5 在此表现并不突出。François Chollet 指出,GPT-5(无工具)的得分是 9.9%,而 Grok 4 Heavy 的得分是 15.9%。 HLE (Humanity’s Last Exam):GPT-5 Pro(有工具)获得了约 42% 的分数,落后于 Grok 4 Heavy 的 44.4%。 自主性 (METR):GPT-5 思维模式在 50% 成功率下的时间范围约为 2 小时 15 分钟 (95% 置信区间为 65 分钟 – 4 小时 30 分钟),优于 o3 的 1 小时 30 分钟。该指标用于估算一个配备工具的智能体能够完成多少人类工作时长。
在软件工程和健康领域,改进是显而易见的;但在 ARC-AGI-2 这类通用推理任务上,其进步并非决定性的。那么,路由器的策略赌注成功了吗? Sam Altman 辩护称,随着 GPT-5 的推出,用户对推理模型(即思维模型)的日常使用率显著上升:免费用户从 低于 1% 上升到 7%,Plus 用户从 7% 上升到 24%。
然而,与此同时,初期的用户体验却非常负面。OpenAI 坚称这是由于路由器运行出现故障所致。

此外,他们已经为付费用户恢复了 GPT-4o,并修改了最初会降低高质量模型服务质量和/或限制其消息数量的条款。

我们的实践建议
如果你是写作者或研究员:当你需要更少花哨辞藻和更严格的事实核查时,请激活 思维模式(通过输入 “think hard about this”
)或直接使用 GPT-5 Pro (如果可用)。你会发现它会给出更多不知道的回答,而不是凭空捏造。如果你是程序员:在处理多步骤任务时(例如,类似 SWE-bench 的补丁修复、大规模重构),请使用思维模式。如果路由器将你降级到 mini 模式,请强制切换回思维模式或在菜单中明确选择它。 如果你是高级用户:在每次会话中,请检查你当前使用的是哪个模型,并在任务需要时,毫不犹豫地手动固定在思维模式。善用「自动/快速/思维」等模式来平衡延迟与质量。 如果你使用 API:请根据 400K/128K
(上下文/生成)的预算和每百万 token 的价格(gpt-5
模型为 输入 10 输出; mini
和nano
更便宜)来规划计算和成本。避免使用那些在非必要情况下会产生大量输出的模板。
结论
它是个好模型吗?是的。它是一次量子飞跃吗?并非如此。
GPT-5 在许多专业人士关心的领域(幻觉更少的写作、更稳健的代码、更安全的健康咨询)改进了 GPT-4o 和 o3,并通过一个(在正常工作时能)减少使用摩擦的路由器统一了用户体验。但是,用户的感知体验高度依赖于路由策略:如果你期望的是思维模式却被分配到了主模式,你会感到明显的落差和失望。
原文地址:https://substack.com/inbox/post/170895211
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!