GPT-5实测数据出炉:代码、健康能力显著增强,但在ARC-AGI-2上不敌Grok 4

智能情报所 2025-08-14 17:03

我们带着一期夏季特别节目回归,本期专门讨论 GPT-5 的发布、性能数据、市场反响以及我们的亲身体验。

日期:2025年8月14日

资讯配图

以下是我们为您梳理的关于 OpenAI 新模型的关键信息:

整体概览

GPT-5 并非单一模型,而是一个系统:它包含一个用于处理大多数请求的快速主模型,一个专门为疑难案例投入计算资源的思维模型,以及一个实时决定在 ChatGPT 中使用哪个模型的路由器。

当您的配额用尽时,系统会将您转至 mini 版本(在 API 中还提供 nano 版本)。您可以通过明确指令(例如 "think hard about this")来强制启用深度思考模式;此外,付费订阅用户可以在模型选择器中选择 “GPT-5 Thinking”。

简而言之,OpenAI 简化了流程,但又没完全简化。

更少的幻觉

在激活网络搜索的情况下,GPT-5 犯下的事实性错误比 GPT-4o 少了约 45%,而在思维模式下,比 OpenAI o3 少了约 80%。在欺骗测试中(例如,让模型声称看到了本不存在的图片),GPT-5 的思维模式相比 o3 也显著降低了此类行为的发生率。

我们需要记得,o3 是一个在某些任务上进步巨大,但幻觉问题也相当严重的模型。

迎合行为减少

OpenAI 进行了训练后调整以减少模型的奉承行为;新增的个性化设置有助于调节其语气。

显著提升的基准测试

OpenAI 报告了以下成绩:AIME-2025 达到 94.6%(无工具),SWE-bench Verified 达到 74.9%,Aider Polyglot 达到 88% (pass@2),MMMU 达到 84.2%,以及 HealthBench Hard 达到 46.2%;GPT-5 Pro 在无工具的 GPQA 测试中达到了 最佳水平 (SOTA)。

他们只发布了与自家先前模型的对比(详见其系统卡片),但这些数据反映了模型在写作、编码和健康领域的进步。

与其他模型的基准对比:

  • Chatbot Arena (LMSYS):在 WebDev Arena 中,GPT-5 位居榜首;而在 Text Arena 中,它位于领先集团,但并未完全拉开差距。这是积极的信号,但尚未形成压倒性优势。详见 LMArena
  • ARC-AGI-2:GPT-5 在此表现并不突出。François Chollet 指出,GPT-5(无工具)的得分是 9.9%,而 Grok 4 Heavy 的得分是 15.9%。
  • HLE (Humanity’s Last Exam):GPT-5 Pro(有工具)获得了约 42% 的分数,落后于 Grok 4 Heavy 的 44.4%。
  • 自主性 (METR):GPT-5 思维模式在 50% 成功率下的时间范围约为 2 小时 15 分钟 (95% 置信区间为 65 分钟 – 4 小时 30 分钟),优于 o3 的 1 小时 30 分钟。该指标用于估算一个配备工具的智能体能够完成多少人类工作时长。

在软件工程和健康领域,改进是显而易见的;但在 ARC-AGI-2 这类通用推理任务上,其进步并非决定性的。那么,路由器的策略赌注成功了吗? Sam Altman 辩护称,随着 GPT-5 的推出,用户对推理模型(即思维模型)的日常使用率显著上升:免费用户从 低于 1% 上升到 7%,Plus 用户从 7% 上升到 24%。

然而,与此同时,初期的用户体验却非常负面。OpenAI 坚称这是由于路由器运行出现故障所致。

资讯配图

此外,他们已经为付费用户恢复了 GPT-4o,并修改了最初会降低高质量模型服务质量和/或限制其消息数量的条款。

资讯配图

我们的实践建议

  • 如果你是写作者或研究员:当你需要更少花哨辞藻和更严格的事实核查时,请激活 思维模式(通过输入 “think hard about this”)或直接使用 GPT-5 Pro (如果可用)。你会发现它会给出更多不知道的回答,而不是凭空捏造。
  • 如果你是程序员:在处理多步骤任务时(例如,类似 SWE-bench 的补丁修复、大规模重构),请使用思维模式。如果路由器将你降级到 mini 模式,请强制切换回思维模式或在菜单中明确选择它。
  • 如果你是高级用户:在每次会话中,请检查你当前使用的是哪个模型,并在任务需要时,毫不犹豫地手动固定在思维模式。善用「自动/快速/思维」等模式来平衡延迟与质量。
  • 如果你使用 API:请根据 400K/128K(上下文/生成)的预算和每百万 token 的价格(gpt-5 模型为 10 输出;mini 和 nano 更便宜)来规划计算和成本。避免使用那些在非必要情况下会产生大量输出的模板。

结论

它是个好模型吗?是的。它是一次量子飞跃吗?并非如此。

GPT-5 在许多专业人士关心的领域(幻觉更少的写作、更稳健的代码、更安全的健康咨询)改进了 GPT-4o 和 o3,并通过一个(在正常工作时能)减少使用摩擦的路由器统一了用户体验。但是,用户的感知体验高度依赖于路由策略:如果你期望的是思维模式却被分配到了主模式,你会感到明显的落差和失望。

原文地址:https://substack.com/inbox/post/170895211


一键三连点赞」「转发」「小心心

欢迎在评论区留下你的想法!


声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AR
more
GPT-5口碑雪崩后,Garry Marcus直言:奥特曼应为GPT-5的灾难引咎辞职
迅路创新获得数千万元融资,推出定价超五万的高端智能E-cargo bike|早起看早期
反击AI论文!arXiv每年拒掉2%造假内容,自动化工具加入审核
【Open Car】究竟是谁那么幸运呢
GPT-5发布,OpenAI放出System Card:安全、事实性、推理全面升级,迈向AGI新拐点?
Arm GPU大变,集成神经加速器
SIGGRAPH 上的 NVIDIA Research 特别演讲及其它精彩活动
具身感知TexLiDAR:全景激光雷达数据的自动文本理解
LLM总是把简单任务复杂化,Karpathy无语:有些任务无需那么多思考
利用 AI 使自动驾驶更安全 博世和 Cariad 深化合作
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号