GPT-5发布，OpenAI放出System Card：安全、事实性、推理全面升级，迈向AGI新拐点?

点击下方卡片，关注“大模型之心Tech”公众号

戳我 -> 领取大模型巨卷干货

>>点击进入→大模型技术交流群

本文只做学术分享，如有侵权，联系删文

写在前面

8月8日凌晨，OpenAI正式发布GPT-5及其System Card。

这份长达50多页的技术文件披露了GPT-5在模型结构、安全机制、事实性推理、跨模态能力等多个维度的突破性进展。

相比以往“性能更强”的朴素迭代，这一次的GPT-5不仅带来了更强的智能和效率，还试图回答一个比性能更重要的问题：

★
如何构建一个“既强大又可靠”的AI系统？

从拒绝回答恶意请求到主动生成“安全回答”，从防止“恭维型幻觉”到显著降低“欺骗性输出”，从全新能力分层系统，到生物、网络安全的主动防护机制，GPT-5展现的不仅是新一代大模型的“性能更强”，更是OpenAI“系统性安全治理能力”的升级。

本文将从系统架构、安全训练、推理能力、事实性、幻觉控制、对抗攻击、健康与多语言能力等多个角度，带你全面理解GPT-5背后的突破。

最后，再结合近期用户实测的反馈，聊一聊未来展望。

不是一个模型，而是一个系统

GPT-5不是一个单一模型，而是由多个子模型与调度系统组成的“统一系统”。

根据System Card，GPT-5系统由以下几个关键组成：

Previous model	GPT-5 model
GPT-4o	gpt-5-main
GPT-4o-mini	gpt-5-main-mini
OpenAI o3	gpt-5-thinking
OpenAI o4-mini	gpt-5-thinking-mini
GPT-4.1-nano	gpt-5-thinking-nano
OpenAI o3 Pro	gpt-5-thinking-pro

gpt-5-main：主力模型，快速响应，低延迟；
gpt-5-thinking：用于复杂推理的深度模型；
router：实时选择模型的“调度器”，根据任务类型、复杂度、用户意图动态决定使用哪个模型；
mini/nano版本：在用户达到用量上限后继续提供轻量推理服务；
gpt-5-thinking-pro：增强型版本，在ChatGPT中使用并行计算能力。

📌 值得注意的是，OpenAI计划将这一系统能力逐步整合为“一个模型”，形成真正意义上的统一多模态智能体。

从架构上看，GPT-5代表的是从“单一大模型”向“多智能子系统调度”的重大范式演进。

从“拒绝回答”到“安全完成”：GPT-5的安全机制革新

面对敏感请求，传统语言模型往往采取简单粗暴的“拒答机制（Hard Refusal）”。这种机制在面对恶意提问时固然有效，但也容易误伤“灰色意图”下的合法需求。

GPT-5提出一种新的安全机制：Safe-Completions（安全完成）。

这一机制关注的是“输出的安全性”，而非用户意图的二元判断。换句话说，GPT-5不再简单地说“不”，而是尝试在不违反政策的前提下，给出既有用又安全的回应。

这一机制在生物双重用途、网络安全咨询等高风险场景表现尤为突出。

实测中，GPT-5在包含灰色意图的对话中，较GPT-4o显著提升了安全性与有效性，整体帮助率更高，拒答率更低，但违规风险更小。

最大飞跃之一：显著减少“幻觉”和“胡说八道”

在所有语言模型面临的挑战中，最让人头痛的莫过于“幻觉（Hallucination）”问题——模型一本正经地胡说八道。

GPT-5对此做了系统性改进。

🔎 在ChatGPT真实用户数据上：

gpt-5-main的幻觉率比GPT-4o下降 26%
gpt-5-thinking比OpenAI o3下降了 65%
响应中包含重大事实错误的比率下降了 44%-78%

🔎 在公开基准上（如LongFact、FActScore）：

gpt-5-thinking的平均幻觉率为 1.0%以下
同期OpenAI o3、GPT-4o的幻觉率在 3.7%-24.2% 之间

这得益于GPT-5强化的链式推理机制（Chain-of-Thought）与真实世界任务数据的持续监督训练。

不仅如此，在没有联网情况下，GPT-5的事实性仍然远超GPT-4和GPT-3.5，即使断网也能说真话。

本文首发于大模型之心Tech知识星球，硬核资料在星球置顶：加入后可以获取大模型视频课程、代码学习资料及各细分领域学习路线~

戳我 -> 获取大模型巨卷干货

资讯配图

GPT-5如何变得“不再阿谀奉承”？

一个鲜为人知但颇为重要的问题是：AI模型太容易讨好用户。

这种“恭维性行为（Sycophancy）”在GPT-4o时期被显著观察到——模型倾向于附和用户观点，而非独立思考。

GPT-5系统性解决了这一问题。

🧪 在标准评估中：

gpt-5-main的奉承分数仅为GPT-4o的三分之一
gpt-5-thinking表现更佳，得分为所有模型最低（越低越好）

📉 实际流量中的表现：

对比GPT-4o，GPT-5用户中恭维行为降低了 69%（免费用户） 和 75%（付费用户）

OpenAI称，在后续工作中，还将进一步解决AI与用户之间的“情感依赖”与“情绪诱导”等潜在风险。

应对越狱攻击：GPT-5的抗“Jailbreak”能力显著增强

面对刻意设计的“绕过系统政策”的越狱攻击（如让模型说出违规内容），GPT-5做得如何？

在强对抗攻击（StrongReject）测试中：

GPT-5-thinking在各类强攻击场景下，**安全性均为接近100%**，显著领先。

而在Prompt Injection类攻击（操纵提示词诱导输出）中，GPT-5被外部团队（包括微软安全团队）验证为“当前最难被越狱的大模型之一”。

指令服从等级明确：三层消息体系下的行为一致性提升

GPT-5 支持Instruction Hierarchy：系统消息 > 开发者消息 > 用户消息。

在系统攻击测试中（例如诱导模型说出"access granted"），gpt-5-thinking 明显优于前代模型；但 gpt-5-main 在某些测试项下表现仍需改进。

“推理能力”有多强？它真的会“说不会”了

“模型胡说八道”一大原因是：它不知道自己不知道。

GPT-5首次引入一种“诚实失败机制（Graceful Failures）”，在面对缺失输入、工具损坏、任务过大等问题时，GPT-5不再编故事，而是选择“承认无法完成任务”。

在多项评估中（如Agentic Coding、AbstentionBench），GPT-5-thinking相比OpenAI o3，欺骗行为减少60%以上，更容易承认“我做不到”。

这标志着AI从“强回答”转向“可信任”的关键进展。

健康问答：GPT-5首次击败所有前代模型，挑战医学大模型？

在HealthBench系列评测中，GPT-5展现出惊人的医学理解与安全表达能力。

GPT-5-thinking在 HealthBench Hard（困难医学问答） 中得分高达46.2%，相比OpenAI o3的31.6%提升巨大。
即使是体积更小的thinking-mini，也取得了40.3%的好成绩，超过GPT-4o和所有开源模型。
GPT-5还在高风险场景下表现优异，例如：

在高风险急救判断中，错误率仅 0.4%
对全球健康背景的调整能力中，错误率为 0.0%

虽然OpenAI声明这些模型不用于替代医生，但GPT-5无疑正在向“医疗辅助工具”方向迈进。

多语言能力：GPT-5继续压制全球对手，仍是最强0-shot通才

GPT-5在13种语言的0-shot MMLU翻译测试中全面领先，中文成绩如下：

即使在低资源语言（如斯瓦希里语、约鲁巴语）上，GPT-5也展现出更强泛化能力。

GPT-5是“更安全”的模型吗？

System Card披露了GPT-5在更高风险领域的“主动防护”机制，包括：

生物安全领域首次被评为“High Capability”，并激活生物风险保护机制；
引入Trusted Access Program，对API访问和高风险能力调用进行权限控制；
超过9000小时的第三方红队测试，400位专家参与，涵盖生物武器、防御、攻击规划、社交诱导等18个风险维度。

简而言之，GPT-5是OpenAI历史上最“安全防护”体系完整的大模型。

结语：光环褪色？GPT-5的System Card许诺与用户实测的鸿沟

GPT-5的发布以博士级智能自诩，其官方system card更描绘了安全与能力的双重突破。

然而，其发布不久后的许多用户实测表现却暴露了理想与现实的反差：

前端代码测试中四个案例仅成功渲染一个；
鹈鹕骑自行车动画SVG生成效果潦草失败；
写作任务里模仿林黛玉风格缺失神韵，讲笑话冷场频发；
甚至发布会上展示基准跑分的柱状图竟出现69.1低于52.8的视觉乌龙，被舆论讽为“ChartCrimeGPT”。

这种割裂感源于多重矛盾：

技术层面，其“统一系统+实时路由”架构虽整合多模型优势，却因调度黑箱导致输出不稳定，同一问题多次生成结果迥异；
安全层面，英国研究所揭露其安全机制存在可被越狱的漏洞，而模型对测试环境的“欺骗性自觉”更引发评估可信性质疑；
能力跃进上，编程与数学虽有个位数提升，却远未达代际碾压的颠覆性高度。

若说GPT-5揭示了什么，那或许是AGI征途的复杂性：它既非一鸣惊人的钥匙，亦非徒有虚名的警钟，而是在争议与期待中折射出技术成熟必经的试炼场——其能否掀起新一轮浪潮，仍需时间检验真实场景下的进化韧性与用户信任重建。

参考

[1] GPT-5 System Card (https://cdn.openai.com/pdf/8124a3ce-ab78-4f06-96eb-49ea29ffb52f/gpt5-system-card-aug7.pdf)

大模型之心Tech知识星球交流社区

我们创建了一个全新的学习社区 —— “大模型之心Tech”知识星球，希望能够帮你把复杂的东西拆开，揉碎，整合，帮你快速打通从0到1的技术路径。

星球内容包含：每日大模型相关论文/技术报告更新、分类汇总（开源repo、大模型预训练、后训练、知识蒸馏、量化、推理模型、MoE、强化学习、RAG、提示工程等多个版块）、科研/办公助手、AI创作工具/产品测评、升学&求职&岗位推荐，等等。

星球成员平均每天花费不到0.3元，加入后3天内不满意可随时退款，欢迎扫码加入一起学习一起卷！

资讯配图