新论文刚证实 GPT-5(中)现在在医学推理和理解基准测试上远超(>20%)已获许可的人类专家

智能情报所 2025-08-15 13:57

一项最新研究表明,在关键的医学推理与理解能力测试上,GPT-5 的表现已经大幅超越了刚通过从业资格考试的人类医生,领先幅度超过 20%。

资讯配图

在职医生已被超越

在处理图片和文字结合的医疗问题时,GPT-5 的推理能力比人类专家高出 24.23%,理解能力则高出 29.40%。

即使在纯文本的医疗问答中,GPT-5 在推理和理解上也分别领先 15.22% 和 9.40%。

这项研究直接将 GPT-5 与经验丰富的在职医生进行比较,并明确指出人工智能已经实现了超越。

值得注意的是,测试中的 GPT-5 是一个未经特殊训练的通用系统,仅通过简单的零样本思维链方式来处理医学和视觉问答。

核心理念与测试方法

论文将 GPT-5 视为一个能辅助决策的通用多模态推理系统。

这意味着它能在同一套标准设置下,读取病历、分析影像,并一步步给出推理过程。

评估采用统一标准,旨在排除提示词技巧的干扰,真正衡量模型本身的能力。

测试过程模拟了一场两轮对话。第一轮先用“让我们一步步思考”引导模型展示推理过程,第二轮则要求模型从选项中给出一个单字母的最终答案。

这种设计确保了评估过程的客观公正,让分数清晰且具有可比性。

从媲美人类到超越人类

作为对比,前一代的 GPT-4o 在同样测试中,表现比准执业医生要落后 5% 到 16% 不等。

但 GPT-5 完全改变了游戏规则,无论是在文本还是多模态的医学任务上,都实现了全方位的超越。

这一飞跃意义重大,标志着顶尖人工智能在有严格限制的标准化医疗测试中,其水平已从“媲美人类”稳步进入“超越人类”的阶段。

一个典型病例分析

在一个具体案例中,模型能将“反复呕吐”、“胸骨上窝捻发音”和 CT 影像结果联系起来。

它准确判断出这可能是高风险的食管穿孔,并建议进行下一步的泛影葡胺吞咽检查。

更重要的是,它还解释了为何其他常规治疗方案可能会导致漏诊,这展现了其严谨的临床推理能力,而非简单的信息匹配。

洞见与启发

医疗是全球各国的核心预算开支,在美国甚至超过了军费。

一旦人工智能或机器人能有效降低医疗成本,各国政府必将以前所未有的速度接纳这项技术。

因为这无异于在不触动任何政治敏感神经的情况下,为国家财政注入一笔巨大的、全新的资金。

参考资料:https://arxiv.org/abs/2508.08224


一键三连点赞」「转发」「小心心

欢迎在评论区留下你的想法!


声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
测试
more
防拆黑胶+芯片加密!拆解多功能传感器模组:功能强大但测试结果成谜
关于举办“电学专业航空电子计量测试技术交流及技术规范宣贯会”的通知
新机:红米K90质感提升很大;iPhone17全系手机膜曝光;一加测试165Hz直屏;vivo Vision头显体验很“上头”
倒计时6天!芯片测试、射频测试研讨会[8.19 杭州]
GPT-5编程成绩有猫腻!自删23道测试题,关键基准还是自己提的
微信聊天可引用部分文字了,抖音测试快递服务功能,比亚迪财险上半年扭亏为盈,工信部等发文明确辅助驾驶,这是今天的其他大新闻!
荣耀Magic V Flip2即将上市,新机测试10000mAh电池
IPF2025 议程更新!英诺赛科/ST意法/天科/天岳/中车/蔚来/东风/小鹏等齐聚无锡,共研功率器件制造测试与应用发展路径
【干货解析】DO-160深度解析:Section1-3适航测试的起点,你读懂了吗?
追梦空天拟于年末完成吨级氢混倾转eVTOL五百公里长航距飞行测试,亿航智能薛鹏:相比直升机,eVTOL有三大优势
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号