新论文刚证实 GPT-5（中）现在在医学推理和理解基准测试上远超（>20%）已获许可的人类专家

一项最新研究表明，在关键的医学推理与理解能力测试上，GPT-5 的表现已经大幅超越了刚通过从业资格考试的人类医生，领先幅度超过 20%。

资讯配图

在职医生已被超越

在处理图片和文字结合的医疗问题时，GPT-5 的推理能力比人类专家高出 24.23%，理解能力则高出 29.40%。

即使在纯文本的医疗问答中，GPT-5 在推理和理解上也分别领先 15.22% 和 9.40%。

这项研究直接将 GPT-5 与经验丰富的在职医生进行比较，并明确指出人工智能已经实现了超越。

值得注意的是，测试中的 GPT-5 是一个未经特殊训练的通用系统，仅通过简单的零样本思维链方式来处理医学和视觉问答。

论文将 GPT-5 视为一个能辅助决策的通用多模态推理系统。

这意味着它能在同一套标准设置下，读取病历、分析影像，并一步步给出推理过程。

评估采用统一标准，旨在排除提示词技巧的干扰，真正衡量模型本身的能力。

测试过程模拟了一场两轮对话。第一轮先用“让我们一步步思考”引导模型展示推理过程，第二轮则要求模型从选项中给出一个单字母的最终答案。

这种设计确保了评估过程的客观公正，让分数清晰且具有可比性。

作为对比，前一代的 GPT-4o 在同样测试中，表现比准执业医生要落后 5% 到 16% 不等。

但 GPT-5 完全改变了游戏规则，无论是在文本还是多模态的医学任务上，都实现了全方位的超越。

这一飞跃意义重大，标志着顶尖人工智能在有严格限制的标准化医疗测试中，其水平已从“媲美人类”稳步进入“超越人类”的阶段。

在一个具体案例中，模型能将“反复呕吐”、“胸骨上窝捻发音”和 CT 影像结果联系起来。

它准确判断出这可能是高风险的食管穿孔，并建议进行下一步的泛影葡胺吞咽检查。

更重要的是，它还解释了为何其他常规治疗方案可能会导致漏诊，这展现了其严谨的临床推理能力，而非简单的信息匹配。

医疗是全球各国的核心预算开支，在美国甚至超过了军费。

一旦人工智能或机器人能有效降低医疗成本，各国政府必将以前所未有的速度接纳这项技术。

因为这无异于在不触动任何政治敏感神经的情况下，为国家财政注入一笔巨大的、全新的资金。

参考资料：https://arxiv.org/abs/2508.08224

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！