一项最新研究表明,在关键的医学推理与理解能力测试上,GPT-5 的表现已经大幅超越了刚通过从业资格考试的人类医生,领先幅度超过 20%。
在职医生已被超越
在处理图片和文字结合的医疗问题时,GPT-5 的推理能力比人类专家高出 24.23%,理解能力则高出 29.40%。
即使在纯文本的医疗问答中,GPT-5 在推理和理解上也分别领先 15.22% 和 9.40%。
这项研究直接将 GPT-5 与经验丰富的在职医生进行比较,并明确指出人工智能已经实现了超越。
值得注意的是,测试中的 GPT-5 是一个未经特殊训练的通用系统,仅通过简单的零样本思维链方式来处理医学和视觉问答。
核心理念与测试方法
论文将 GPT-5 视为一个能辅助决策的通用多模态推理系统。
这意味着它能在同一套标准设置下,读取病历、分析影像,并一步步给出推理过程。
评估采用统一标准,旨在排除提示词技巧的干扰,真正衡量模型本身的能力。
测试过程模拟了一场两轮对话。第一轮先用“让我们一步步思考”引导模型展示推理过程,第二轮则要求模型从选项中给出一个单字母的最终答案。
这种设计确保了评估过程的客观公正,让分数清晰且具有可比性。
从媲美人类到超越人类
作为对比,前一代的 GPT-4o 在同样测试中,表现比准执业医生要落后 5% 到 16% 不等。
但 GPT-5 完全改变了游戏规则,无论是在文本还是多模态的医学任务上,都实现了全方位的超越。
这一飞跃意义重大,标志着顶尖人工智能在有严格限制的标准化医疗测试中,其水平已从“媲美人类”稳步进入“超越人类”的阶段。
一个典型病例分析
在一个具体案例中,模型能将“反复呕吐”、“胸骨上窝捻发音”和 CT 影像结果联系起来。
它准确判断出这可能是高风险的食管穿孔,并建议进行下一步的泛影葡胺吞咽检查。
更重要的是,它还解释了为何其他常规治疗方案可能会导致漏诊,这展现了其严谨的临床推理能力,而非简单的信息匹配。
洞见与启发
医疗是全球各国的核心预算开支,在美国甚至超过了军费。
一旦人工智能或机器人能有效降低医疗成本,各国政府必将以前所未有的速度接纳这项技术。
因为这无异于在不触动任何政治敏感神经的情况下,为国家财政注入一笔巨大的、全新的资金。
参考资料:https://arxiv.org/abs/2508.08224
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!