解放军总医院联合南大、吉大等机构,共同提出首个「脊柱诊疗大模型」SpineGPT

机器之心 2025-11-22 17:00

本研究由解放军总医院牵头,联合浙江大学医学院附属第二医院、复旦大学附属华山医院等共 11 家国内顶尖三甲医院,携手南京大学、吉林大学两所重点高校,并汇聚 Pi3Lab、上海三友医疗器械股份有限公司等产学研多方力量,共同完成了首个面向脊柱诊疗领域的大模型研发。

 

论文共同第一作者包括赵明、董文辉博士、张阳医生,核心贡献者包括来自浙江大学医学院附属第二医院的陈其昕教授、夏顺楷医生,以及复旦大学附属华山医院的马晓生教授、管韵致医生等。通讯作者为解放军总医院骨科医学部副主任孙天胜教授,共同通讯作者为南京大学智能科学与技术副院长单彩峰教授。

 

脊柱疾病影响全球 6.19 亿人,是致残的主要原因之一 。然而,现有 AI 模型在临床决策中仍存在「认知鸿沟」。缺乏椎体级别(level-aware)、多模态融合的指令数据和标准化基准,是制约 AI 辅助诊断的关键瓶颈。

 

本文提出了一套统性的解决方案,包括首个大规模、具有可追溯性的脊柱指令数据集 SpineMed-450K,以及临床级评测基准 SpineBench。基于此训练出的专科大模型 SpineGPT,在所有任务上均实现了显著提升,仅仅 7B 参数量,全面超越了包括 GLM-4.5V 和 Qwen2.5-VL-72B 在内的顶尖开源大模型 。

 

解放军总医院联合南大、吉大等机构,共同提出首个「脊柱诊疗大模型」SpineGPT图2

 

 

临床痛点:通用 LVLM 的「认知鸿沟」

 

脊柱疾病的临床诊疗,需要复杂的推理过程:整合 X 光、CT、MRI 等多模态影像的发现,并将病灶精确定位到特定的椎体层面(Level-Aware Reasoning),以确定严重程度并规划干预措施 。这种集成推理能力,是现有通用视觉 - 语言大模型(LVLMs)的系统性弱点 。

 

在 SpineBench 的评测中,这一弱点暴露无遗 :

 

解放军总医院联合南大、吉大等机构,共同提出首个「脊柱诊疗大模型」SpineGPT图3

 

 

核心成果:构建临床级 AI 的「基础设施」

 

为填补现有数据与临床需求之间的认知鸿沟,研究团队与实践中的脊柱外科医生共同设计和构建了 SpineMed 生态系统。

 

1. SpineMed-450K:椎体级、多模态指令数据集

 

这是首个明确为椎体级推理而设计的大规模数据集。

 

解放军总医院联合南大、吉大等机构,共同提出首个「脊柱诊疗大模型」SpineGPT图4

 

 

——使用 PaddleOCR 提取图文信息;

——通过新型的图像 - 上下文匹配算法,将图像与其周围的文本上下文精确绑定,保证可追溯性;

——利用 LLM 两阶段生成方法(起草和修订)来生成高质量的指令数据,且临床医生参与了提示词策略和修订标准的审查。

 

解放军总医院联合南大、吉大等机构,共同提出首个「脊柱诊疗大模型」SpineGPT图5

 

 

解放军总医院联合南大、吉大等机构,共同提出首个「脊柱诊疗大模型」SpineGPT图6

 

2. SpineBench:首个临床显著性评估基准

 

SpineBench 是一个与临床深度结合的评估框架,旨在评估 AI 在细粒度、以解剖为中心的推理中犯下的、在实践中至关重要的错误类型。

 

  1. 结构化影像报告(SIP):评估发现的准确性、临床意义和定量描述 。

  2. AI 辅助诊断(AAD):评估主要诊断的正确性、鉴别诊断和临床推理 。

  3. 治疗建议(TR):分为患者指导(语言清晰度、共情、安抚)、循证计划(理由、指南一致性)和技术可行性(手术细节、并发症预防)。

  4. 风险与预后评估(RPM):评估围手术期管理、随访安排和潜在问题策略 。

  5. 推理与免责声明(RD):评估证据覆盖范围、相关性、细节粒度和逻辑连贯性。

 

解放军总医院联合南大、吉大等机构,共同提出首个「脊柱诊疗大模型」SpineGPT图7

 

实验结果:专科 AI 模型 SpineGPT 的突破性表现

 

SpineGPT 基于 Qwen2.5-VL-7B-Instruct 模型,通过课程学习(Curriculum Learning)框架,分三阶段在 SpineMed-450K 上进行微调,以逐步增强其在脊柱健康领域的适用性和专业性 。

 

解放军总医院联合南大、吉大等机构,共同提出首个「脊柱诊疗大模型」SpineGPT图8

 

1.超越开源,逼近顶尖专有模型: SpineGPT 达到了 87.44% 的平均分,大幅领先所有开源大模型 4.18 个百分点以上。在纯文本 QA 任务上(89.46%),SpineGPT 甚至超越了所有参评模型,包括 GPT5 (87.41%) 。

 

2.专科数据的重要性(消融实验):

 

3.临床报告能力显著增强: SpineGPT 在医疗报告生成任务上的总分为 87.24 分,而 Qwen2.5-VL-72B 仅为 63.80 分,ChatGPT-4o 为 64.04 分。

 

 

解放军总医院联合南大、吉大等机构,共同提出首个「脊柱诊疗大模型」SpineGPT图9

 

4.人类专家高度认可: 人类专家对报告评分与 LLM 自动评分之间的 Pearson 相关系数达到 0.382 至 0.949,大多数维度相关性在 0.7 以上。这有力地验证了 LLM 自动评分作为专家判断代理的可靠性。

 

结论与展望

 

这项研究证明了:对于脊柱诊断这样需要复杂解剖推理的专业领域,专科指令数据和「临床医生介入」的开发流程是实现临床级 AI 能力的关键。

 

SpineMed-450K 和 SpineBench 的发布,为未来的 AI 研究提供了一个高实用性的基线。研究团队计划将拓展数据集、训练大于 7B 参数的模型,并结合强化学习技术,继续深化与领先专有模型的直接比较,以确立更清晰的性能基准。

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
大模型
more
查资料、劝老板、写周报,给上班人准备的大模型评测
真情实感体验了阿里「千问APP」后,为什么说它是「中国的ChatGPT」?
无需训练、只优化解码策略,DTS框架让大模型推理准确率提升6%,推理长度缩短23%
别问树模型了!死磕结构化数据,清华团队把大模型表格理解推到极限
GPT-5.1上线,文心5.0登场,国产大模型为啥不慌
从 Others 到挑战者第一,火山引擎没有错过大模型
混元OCR模型核心技术揭秘:统一框架、真端到端
全世界在等的Gemini 3终于来了!强到断崖领先,连马斯克OpenAI都夸好
36个月大逆转!他带着谷歌AI杀回来了,下一步世界模型
昨夜今晨全球大公司动态 | 谷歌第三代Gemini超越其他竞争者;阿里巴巴千问APP单周下载量创纪录
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号