无需微调就超越临床医生?埃默里大学系统评估GPT-5医疗决策支持能力:潜力巨大

ScienceAI 2025-08-29 15:59

将 ScienceAI 设为星标

第一时间掌握

新鲜的 AI for Science 资讯

资讯配图


资讯配图

编辑丨coisini

大型语言模型(LLM)已经日益发展成通用系统,无需大量微调即可执行领域特定推理。

本月初,OpenAI 发布了新一代旗舰模型 GPT-5,并表示其能够自己决定何时需要深入思考。一些研究开始探索 GPT-5 在科学领域的潜力。

在医疗领域,决策过程往往需要整合异构信息源,包括患者主诉、结构化数据和医学影像等。来自埃默里大学的研究团队将 GPT-5 定位为医疗决策支持领域的通用多模态推理系统,在统一评估框架下系统性地评估了其在文本问答和视觉问答任务中的零样本思维链推理性能。

资讯配图

论文地址:https://arxiv.org/pdf/2508.08224

评估与结果

研究团队在 MedQA、MedXpertQA(文本与多模态)、MMLU 医学子集、USMLE 自我评估以及 VQA-RAD 的标准数据集上对 GPT-5、GPT-5-mini、GPT-5-nano 和 GPT-4o-2024-11-20 进行了基准测试。

文本问答

在 MedQA 基准测试中,GPT-5 的准确率达到 95.84%,较 GPT-4o 绝对提升 4.80%,表明 GPT-5 在临床问题情境中具有更强的事实召回与诊断推理能力。

更显著的提升出现在 MedXpertQA 文本子集,GPT-5 的推理准确率较 GPT-4o 提高 26.33%,理解准确率提升 25.30%,表明 GPT-5 在多步推理和医学叙述理解方面取得了实质性增强。

资讯配图

USMLE 自我评估

在美国医师执照考试 (USMLE) 自我评估中,GPT-5 在三个考试阶段均超越所有基线模型,其中在 Step 2(临床决策与管理)阶段优势最为显著(+4.17%)。这一结果与 GPT-5 改进的思维链推理能力高度契合。

资讯配图

三阶段平均得分达到 95.22%(较 GPT-4o 提升 2.88%),远超人类通过考试常规阈值,表明 GPT-5 已具备应对高风险临床推理任务的成熟能力。

视觉问答

在多模态推理任务中,GPT-5 在 MedXpertQA 多模态子集上实现飞跃性突破:推理和理解准确率分别较 GPT-4o 提升 29.26% 和 26.18%,表明其视觉与文本线索的整合能力得到显著增强。

资讯配图

在 MedXpertQA 多模态基准的典型案例中,GPT-5 展现出以临床逻辑整合多模态信息的能力:GPT-5 根据 CT 影像表现、实验室数值及反复呕吐后的关键体征,准确地将食管穿孔列为最可能诊断;随后推荐泛影葡胺吞咽检查作为下一步诊疗措施,同时明确排除其他选项并逐一论证。

资讯配图

这一案例体现出 GPT-5 能够整合视觉证据与复杂叙述语境、保持结构化诊断推理链,最终做出符合专家共识的高风险临床决策。

对比人类专家

如下表所示,研究团队将模型与预执业人类专家进行了对比,GPT-4o 在多数维度上低于人类专家水平,在文本与多模态场景中,推理和理解准确率较人类专家低 5.03%-15.90%;而 GPT-5 不仅弥合了这一差距,还以显著优势超越了人类专家:文本推理(+15.22%)、文本理解(+9.40%)、多模态推理(+24.23%)、多模态理解(+29.40%)。

资讯配图

值得注意的是,GPT-5 在多模态场景中领先优势尤为突出,其表现甚至超越经验丰富的临床医生在限时测试条件下的水平。

总的来说,这项研究凸显出 GPT-5 在真实世界临床决策支持中潜力巨大。不过,需要强调的是,现有基准测试反映的是理想化评估环境,可能无法完全捕捉真实医疗实践的多样性、不确定性及伦理考量。

感兴趣的读者可以阅读论文原文,了解更多研究内容。

人工智能 × [ 生物 神经科学 数学 物理 化学 材料 ]

「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展

欢迎注标星,并点击右下角点赞在看

点击读原文,加入专业从业者社区,以获得更多交流合作机会及服务。

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
医疗
more
魏则西离开后,医疗陷阱的100种方式
资讯 | 涉及人的神经技术医学研究伦理指引、2025BCI脑控机器人大赛、青石永隽/熵基科技/云脑医疗新进展
2025年中国医疗大模型行业产业链、重点企业分析及投资战略
会议 | 第四届智慧医疗与康复大会暨第七届脑机接口论坛会议第二轮通知
2025年中国医疗服务行业市场深度分析报告-华经产业研究院
为20亿人穆斯林市场,连AI医疗都做清真认证了
无需微调就超越临床医生?埃默里大学系统评估GPT-5医疗决策支持能力:潜力巨大
穿刺介入医疗器械智能制造生产线建设项目可行性研究报告
脑机接口:过去、现在与未来|华山医院 吴劲松主任,携手复旦大学 王守岩研究员、阶梯医疗 李雪博士
人形机器人上岗“卖”医疗器械
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号