GPT-5发布,OpenAI放出System Card:安全、事实性、推理全面升级,迈向AGI新拐点?

大模型之心Tech 2025-08-09 08:00

点击下方卡片,关注“大模型之心Tech”公众号

戳我 -> 领取大模型巨卷干货



>>点击进入→大模型技术交流群

本文只做学术分享,如有侵权,联系删文
资讯配图

写在前面

8月8日凌晨,OpenAI正式发布GPT-5及其System Card。

资讯配图

这份长达50多页的技术文件披露了GPT-5在模型结构、安全机制、事实性推理、跨模态能力等多个维度的突破性进展。

相比以往“性能更强”的朴素迭代,这一次的GPT-5不仅带来了更强的智能和效率,还试图回答一个比性能更重要的问题:

如何构建一个“既强大又可靠”的AI系统?

从拒绝回答恶意请求到主动生成“安全回答”,从防止“恭维型幻觉”到显著降低“欺骗性输出”,从全新能力分层系统,到生物、网络安全的主动防护机制,GPT-5展现的不仅是新一代大模型的“性能更强”,更是OpenAI“系统性安全治理能力”的升级。

本文将从系统架构、安全训练、推理能力、事实性、幻觉控制、对抗攻击、健康与多语言能力等多个角度,带你全面理解GPT-5背后的突破。

最后,再结合近期用户实测的反馈,聊一聊未来展望。

不是一个模型,而是一个系统

GPT-5不是一个单一模型,而是由多个子模型与调度系统组成的“统一系统”。

根据System Card,GPT-5系统由以下几个关键组成:

Previous model
GPT-5 model
GPT-4o
gpt-5-main
GPT-4o-mini
gpt-5-main-mini
OpenAI o3
gpt-5-thinking
OpenAI o4-mini
gpt-5-thinking-mini
GPT-4.1-nano
gpt-5-thinking-nano
OpenAI o3 Pro
gpt-5-thinking-pro
  • gpt-5-main:主力模型,快速响应,低延迟;
  • gpt-5-thinking:用于复杂推理的深度模型;
  • router:实时选择模型的“调度器”,根据任务类型、复杂度、用户意图动态决定使用哪个模型;
  • mini/nano版本:在用户达到用量上限后继续提供轻量推理服务;
  • gpt-5-thinking-pro:增强型版本,在ChatGPT中使用并行计算能力。

📌 值得注意的是,OpenAI计划将这一系统能力逐步整合为“一个模型”,形成真正意义上的统一多模态智能体。

从架构上看,GPT-5代表的是从“单一大模型”向“多智能子系统调度”的重大范式演进。

从“拒绝回答”到“安全完成”:GPT-5的安全机制革新

面对敏感请求,传统语言模型往往采取简单粗暴的“拒答机制(Hard Refusal)”。这种机制在面对恶意提问时固然有效,但也容易误伤“灰色意图”下的合法需求。

GPT-5提出一种新的安全机制:Safe-Completions(安全完成)

这一机制关注的是“输出的安全性”,而非用户意图的二元判断。换句话说,GPT-5不再简单地说“不”,而是尝试在不违反政策的前提下,给出既有用又安全的回应。

这一机制在生物双重用途网络安全咨询等高风险场景表现尤为突出。

实测中,GPT-5在包含灰色意图的对话中,较GPT-4o显著提升了安全性与有效性,整体帮助率更高,拒答率更低,但违规风险更小

最大飞跃之一:显著减少“幻觉”和“胡说八道”

在所有语言模型面临的挑战中,最让人头痛的莫过于“幻觉(Hallucination)”问题——模型一本正经地胡说八道。

GPT-5对此做了系统性改进。

资讯配图
资讯配图

🔎 在ChatGPT真实用户数据上:

  • gpt-5-main的幻觉率比GPT-4o下降 26%
  • gpt-5-thinking比OpenAI o3下降了 65%
  • 响应中包含重大事实错误的比率下降了 44%-78%

🔎 在公开基准上(如LongFact、FActScore):

  • gpt-5-thinking的平均幻觉率为 1.0%以下
  • 同期OpenAI o3、GPT-4o的幻觉率在 3.7%-24.2% 之间

这得益于GPT-5强化的链式推理机制(Chain-of-Thought)与真实世界任务数据的持续监督训练。

不仅如此,在没有联网情况下,GPT-5的事实性仍然远超GPT-4和GPT-3.5,即使断网也能说真话

本文首发于大模型之心Tech知识星球,硬核资料在星球置顶:加入后可以获取大模型视频课程、代码学习资料及各细分领域学习路线~
戳我 -> 获取大模型巨卷干货

资讯配图

GPT-5如何变得“不再阿谀奉承”?

一个鲜为人知但颇为重要的问题是:AI模型太容易讨好用户

这种“恭维性行为(Sycophancy)”在GPT-4o时期被显著观察到——模型倾向于附和用户观点,而非独立思考。

GPT-5系统性解决了这一问题。

资讯配图

🧪 在标准评估中:

  • gpt-5-main的奉承分数仅为GPT-4o的三分之一
  • gpt-5-thinking表现更佳,得分为所有模型最低(越低越好)

📉 实际流量中的表现:

  • 对比GPT-4o,GPT-5用户中恭维行为降低了 69%(免费用户) 和 75%(付费用户)

OpenAI称,在后续工作中,还将进一步解决AI与用户之间的“情感依赖”与“情绪诱导”等潜在风险。

应对越狱攻击:GPT-5的抗“Jailbreak”能力显著增强

面对刻意设计的“绕过系统政策”的越狱攻击(如让模型说出违规内容),GPT-5做得如何?

在强对抗攻击(StrongReject)测试中:

资讯配图

GPT-5-thinking在各类强攻击场景下,**安全性均为接近100%**,显著领先。

而在Prompt Injection类攻击(操纵提示词诱导输出)中,GPT-5被外部团队(包括微软安全团队)验证为“当前最难被越狱的大模型之一”。

指令服从等级明确:三层消息体系下的行为一致性提升

资讯配图

GPT-5 支持Instruction Hierarchy:系统消息 > 开发者消息 > 用户消息。

在系统攻击测试中(例如诱导模型说出"access granted"),gpt-5-thinking 明显优于前代模型;但 gpt-5-main 在某些测试项下表现仍需改进。

“推理能力”有多强?它真的会“说不会”了

“模型胡说八道”一大原因是:它不知道自己不知道。

GPT-5首次引入一种“诚实失败机制(Graceful Failures)”,在面对缺失输入、工具损坏、任务过大等问题时,GPT-5不再编故事,而是选择“承认无法完成任务”。

资讯配图

在多项评估中(如Agentic Coding、AbstentionBench),GPT-5-thinking相比OpenAI o3,欺骗行为减少60%以上,更容易承认“我做不到”。

这标志着AI从“强回答”转向“可信任”的关键进展。

健康问答:GPT-5首次击败所有前代模型,挑战医学大模型?

在HealthBench系列评测中,GPT-5展现出惊人的医学理解与安全表达能力。

资讯配图
健康领域的性能与安全性。gpt-5-thinking 优于所有先前的模型,包括 GPT-4o、OpenAI o1、OpenAI o3 和 OpenAI o4-mini。gpt-5-thinking-mini 的表现几乎与之相当。gpt-5-main 的得分显著高于我们之前性能最佳的非推理模型 GPT-4o。
资讯配图
三个安全领域的健康错误率。与 OpenAI o3 相比,gpt-5-thinking 的失败率降低了 8 倍或更多。gpt-5-thinking-mini 的表现优于更大的模型,而 gpt-5-main 也优于所有先前的模型。
  • GPT-5-thinking在 HealthBench Hard(困难医学问答) 中得分高达46.2%,相比OpenAI o3的31.6%提升巨大。

  • 即使是体积更小的thinking-mini,也取得了40.3%的好成绩,超过GPT-4o和所有开源模型。

  • GPT-5还在高风险场景下表现优异,例如:

    • 在高风险急救判断中,错误率仅 0.4%
    • 对全球健康背景的调整能力中,错误率为 0.0%

虽然OpenAI声明这些模型不用于替代医生,但GPT-5无疑正在向“医疗辅助工具”方向迈进。

多语言能力:GPT-5继续压制全球对手,仍是最强0-shot通才

GPT-5在13种语言的0-shot MMLU翻译测试中全面领先,中文成绩如下:

资讯配图

即使在低资源语言(如斯瓦希里语、约鲁巴语)上,GPT-5也展现出更强泛化能力。

GPT-5是“更安全”的模型吗?

资讯配图
资讯配图
提示注入的代理红队测试(ART)基准

System Card披露了GPT-5在更高风险领域的“主动防护”机制,包括:

  • 生物安全领域首次被评为“High Capability”,并激活生物风险保护机制;
  • 引入Trusted Access Program,对API访问和高风险能力调用进行权限控制;
  • 超过9000小时的第三方红队测试,400位专家参与,涵盖生物武器、防御、攻击规划、社交诱导等18个风险维度。

简而言之,GPT-5是OpenAI历史上最“安全防护”体系完整的大模型

结语:光环褪色?GPT-5的System Card许诺与用户实测的鸿沟

GPT-5的发布以博士级智能自诩,其官方system card更描绘了安全与能力的双重突破。

然而,其发布不久后的许多用户实测表现却暴露了理想与现实的反差:

  • 前端代码测试中四个案例仅成功渲染一个;

  • 鹈鹕骑自行车动画SVG生成效果潦草失败;

  • 写作任务里模仿林黛玉风格缺失神韵,讲笑话冷场频发;

  • 甚至发布会上展示基准跑分的柱状图竟出现69.1低于52.8的视觉乌龙,被舆论讽为“ChartCrimeGPT”。

这种割裂感源于多重矛盾:

  • 技术层面,其“统一系统+实时路由”架构虽整合多模型优势,却因调度黑箱导致输出不稳定,同一问题多次生成结果迥异;

  • 安全层面,英国研究所揭露其安全机制存在可被越狱的漏洞,而模型对测试环境的“欺骗性自觉”更引发评估可信性质疑;

  • 能力跃进上,编程与数学虽有个位数提升,却远未达代际碾压的颠覆性高度。

若说GPT-5揭示了什么,那或许是AGI征途的复杂性:它既非一鸣惊人的钥匙,亦非徒有虚名的警钟,而是在争议与期待中折射出技术成熟必经的试炼场——其能否掀起新一轮浪潮,仍需时间检验真实场景下的进化韧性与用户信任重建。

参考

[1] GPT-5 System Card (https://cdn.openai.com/pdf/8124a3ce-ab78-4f06-96eb-49ea29ffb52f/gpt5-system-card-aug7.pdf)


大模型之心Tech知识星球交流社区

我们创建了一个全新的学习社区 —— “大模型之心Tech”知识星球,希望能够帮你把复杂的东西拆开,揉碎,整合,帮你快速打通从0到1的技术路径。 

星球内容包含:每日大模型相关论文/技术报告更新、分类汇总(开源repo大模型预训练后训练知识蒸馏量化推理模型MoE强化学习RAG提示工程等多个版块)、科研/办公助手AI创作工具/产品测评、升学&求职&岗位推荐,等等。

星球成员平均每天花费不到0.3元,加入后3天内不满意可随时退款,欢迎扫码加入一起学习一起卷!

资讯配图


声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI AR 安全
more
趋近于零的低双折射 用于ARVR的创新光学材料解决方案
展商直击 | WAIC 2025 绽放锋芒:云锦微智能体路由器 ARGUS 引行业瞩目
AI发展迎来「中国式方案」的黄金时刻|36氪2025 AI Partner百业大会官宣定档
GPT-5发布,OpenAI放出System Card:安全、事实性、推理全面升级,迈向AGI新拐点?
TechWeb早报:苹果版ChatGPT曝光,马斯克注册“巨硬Macrohard”商标
解锁 AI 算力未来|首届 Arm Unlocked 2025 上海盛会,定档9月10日,报名通道开启!
【精选报告】2025全球AR&VR行业发展趋势报告(附PDF下载)
Polartec®亮相上海国际功能性纺织品展览会
又一车企下场搅局!AR HUD行业竞争逻辑「生变」
清华联合生数提出具身视频基座模型Vidar,20分钟真机数据实现跨本体泛化!
Copyright © 2025 成都科技区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号