点击下方卡片,关注“大模型之心Tech”公众号
>>点击进入→大模型技术交流群

写在前面
8月8日凌晨,OpenAI正式发布GPT-5及其System Card。

这份长达50多页的技术文件披露了GPT-5在模型结构、安全机制、事实性推理、跨模态能力等多个维度的突破性进展。
相比以往“性能更强”的朴素迭代,这一次的GPT-5不仅带来了更强的智能和效率,还试图回答一个比性能更重要的问题:
★如何构建一个“既强大又可靠”的AI系统?
从拒绝回答恶意请求到主动生成“安全回答”,从防止“恭维型幻觉”到显著降低“欺骗性输出”,从全新能力分层系统,到生物、网络安全的主动防护机制,GPT-5展现的不仅是新一代大模型的“性能更强”,更是OpenAI“系统性安全治理能力”的升级。
本文将从系统架构、安全训练、推理能力、事实性、幻觉控制、对抗攻击、健康与多语言能力等多个角度,带你全面理解GPT-5背后的突破。
最后,再结合近期用户实测的反馈,聊一聊未来展望。
不是一个模型,而是一个系统
GPT-5不是一个单一模型,而是由多个子模型与调度系统组成的“统一系统”。
根据System Card,GPT-5系统由以下几个关键组成:
gpt-5-main:主力模型,快速响应,低延迟; gpt-5-thinking:用于复杂推理的深度模型; router:实时选择模型的“调度器”,根据任务类型、复杂度、用户意图动态决定使用哪个模型; mini/nano版本:在用户达到用量上限后继续提供轻量推理服务; gpt-5-thinking-pro:增强型版本,在ChatGPT中使用并行计算能力。
📌 值得注意的是,OpenAI计划将这一系统能力逐步整合为“一个模型”,形成真正意义上的统一多模态智能体。
从架构上看,GPT-5代表的是从“单一大模型”向“多智能子系统调度”的重大范式演进。
从“拒绝回答”到“安全完成”:GPT-5的安全机制革新
面对敏感请求,传统语言模型往往采取简单粗暴的“拒答机制(Hard Refusal)”。这种机制在面对恶意提问时固然有效,但也容易误伤“灰色意图”下的合法需求。
GPT-5提出一种新的安全机制:Safe-Completions(安全完成)。
这一机制关注的是“输出的安全性”,而非用户意图的二元判断。换句话说,GPT-5不再简单地说“不”,而是尝试在不违反政策的前提下,给出既有用又安全的回应。
这一机制在生物双重用途、网络安全咨询等高风险场景表现尤为突出。
实测中,GPT-5在包含灰色意图的对话中,较GPT-4o显著提升了安全性与有效性,整体帮助率更高,拒答率更低,但违规风险更小。
最大飞跃之一:显著减少“幻觉”和“胡说八道”
在所有语言模型面临的挑战中,最让人头痛的莫过于“幻觉(Hallucination)”问题——模型一本正经地胡说八道。
GPT-5对此做了系统性改进。


🔎 在ChatGPT真实用户数据上:
gpt-5-main的幻觉率比GPT-4o下降 26% gpt-5-thinking比OpenAI o3下降了 65% 响应中包含重大事实错误的比率下降了 44%-78%
🔎 在公开基准上(如LongFact、FActScore):
gpt-5-thinking的平均幻觉率为 1.0%以下 同期OpenAI o3、GPT-4o的幻觉率在 3.7%-24.2% 之间
这得益于GPT-5强化的链式推理机制(Chain-of-Thought)与真实世界任务数据的持续监督训练。
不仅如此,在没有联网情况下,GPT-5的事实性仍然远超GPT-4和GPT-3.5,即使断网也能说真话。
GPT-5如何变得“不再阿谀奉承”?
一个鲜为人知但颇为重要的问题是:AI模型太容易讨好用户。
这种“恭维性行为(Sycophancy)”在GPT-4o时期被显著观察到——模型倾向于附和用户观点,而非独立思考。
GPT-5系统性解决了这一问题。

🧪 在标准评估中:
gpt-5-main的奉承分数仅为GPT-4o的三分之一 gpt-5-thinking表现更佳,得分为所有模型最低(越低越好)
📉 实际流量中的表现:
对比GPT-4o,GPT-5用户中恭维行为降低了 69%(免费用户) 和 75%(付费用户)
OpenAI称,在后续工作中,还将进一步解决AI与用户之间的“情感依赖”与“情绪诱导”等潜在风险。
应对越狱攻击:GPT-5的抗“Jailbreak”能力显著增强
面对刻意设计的“绕过系统政策”的越狱攻击(如让模型说出违规内容),GPT-5做得如何?
在强对抗攻击(StrongReject)测试中:

GPT-5-thinking在各类强攻击场景下,**安全性均为接近100%**,显著领先。
而在Prompt Injection类攻击(操纵提示词诱导输出)中,GPT-5被外部团队(包括微软安全团队)验证为“当前最难被越狱的大模型之一”。
指令服从等级明确:三层消息体系下的行为一致性提升

GPT-5 支持Instruction Hierarchy:系统消息 > 开发者消息 > 用户消息。
在系统攻击测试中(例如诱导模型说出"access granted"),gpt-5-thinking 明显优于前代模型;但 gpt-5-main 在某些测试项下表现仍需改进。
“推理能力”有多强?它真的会“说不会”了
“模型胡说八道”一大原因是:它不知道自己不知道。
GPT-5首次引入一种“诚实失败机制(Graceful Failures)”,在面对缺失输入、工具损坏、任务过大等问题时,GPT-5不再编故事,而是选择“承认无法完成任务”。

在多项评估中(如Agentic Coding、AbstentionBench),GPT-5-thinking相比OpenAI o3,欺骗行为减少60%以上,更容易承认“我做不到”。
这标志着AI从“强回答”转向“可信任”的关键进展。
健康问答:GPT-5首次击败所有前代模型,挑战医学大模型?
在HealthBench系列评测中,GPT-5展现出惊人的医学理解与安全表达能力。


GPT-5-thinking在 HealthBench Hard(困难医学问答) 中得分高达46.2%,相比OpenAI o3的31.6%提升巨大。
即使是体积更小的thinking-mini,也取得了40.3%的好成绩,超过GPT-4o和所有开源模型。
GPT-5还在高风险场景下表现优异,例如:
在高风险急救判断中,错误率仅 0.4% 对全球健康背景的调整能力中,错误率为 0.0%
虽然OpenAI声明这些模型不用于替代医生,但GPT-5无疑正在向“医疗辅助工具”方向迈进。
多语言能力:GPT-5继续压制全球对手,仍是最强0-shot通才
GPT-5在13种语言的0-shot MMLU翻译测试中全面领先,中文成绩如下:

即使在低资源语言(如斯瓦希里语、约鲁巴语)上,GPT-5也展现出更强泛化能力。
GPT-5是“更安全”的模型吗?


System Card披露了GPT-5在更高风险领域的“主动防护”机制,包括:
生物安全领域首次被评为“High Capability”,并激活生物风险保护机制; 引入Trusted Access Program,对API访问和高风险能力调用进行权限控制; 超过9000小时的第三方红队测试,400位专家参与,涵盖生物武器、防御、攻击规划、社交诱导等18个风险维度。
简而言之,GPT-5是OpenAI历史上最“安全防护”体系完整的大模型。
结语:光环褪色?GPT-5的System Card许诺与用户实测的鸿沟
GPT-5的发布以博士级智能自诩,其官方system card更描绘了安全与能力的双重突破。
然而,其发布不久后的许多用户实测表现却暴露了理想与现实的反差:
前端代码测试中四个案例仅成功渲染一个;
鹈鹕骑自行车动画SVG生成效果潦草失败;
写作任务里模仿林黛玉风格缺失神韵,讲笑话冷场频发;
甚至发布会上展示基准跑分的柱状图竟出现69.1低于52.8的视觉乌龙,被舆论讽为“ChartCrimeGPT”。
这种割裂感源于多重矛盾:
技术层面,其“统一系统+实时路由”架构虽整合多模型优势,却因调度黑箱导致输出不稳定,同一问题多次生成结果迥异;
安全层面,英国研究所揭露其安全机制存在可被越狱的漏洞,而模型对测试环境的“欺骗性自觉”更引发评估可信性质疑;
能力跃进上,编程与数学虽有个位数提升,却远未达代际碾压的颠覆性高度。
若说GPT-5揭示了什么,那或许是AGI征途的复杂性:它既非一鸣惊人的钥匙,亦非徒有虚名的警钟,而是在争议与期待中折射出技术成熟必经的试炼场——其能否掀起新一轮浪潮,仍需时间检验真实场景下的进化韧性与用户信任重建。
参考
[1] GPT-5 System Card (https://cdn.openai.com/pdf/8124a3ce-ab78-4f06-96eb-49ea29ffb52f/gpt5-system-card-aug7.pdf)
大模型之心Tech知识星球交流社区
我们创建了一个全新的学习社区 —— “大模型之心Tech”知识星球,希望能够帮你把复杂的东西拆开,揉碎,整合,帮你快速打通从0到1的技术路径。
星球内容包含:每日大模型相关论文/技术报告更新、分类汇总(开源repo、大模型预训练、后训练、知识蒸馏、量化、推理模型、MoE、强化学习、RAG、提示工程等多个版块)、科研/办公助手、AI创作工具/产品测评、升学&求职&岗位推荐,等等。
星球成员平均每天花费不到0.3元,加入后3天内不满意可随时退款,欢迎扫码加入一起学习一起卷!