中国医疗大模型反超OpenAI,Baichuan-M2如何撕开行业天花板?|甲子光年

甲子光年 2025-08-11 17:39
资讯配图
资讯配图

百川的破局路径是“造医生-改路径-促医学”。


作者|Iris

编辑|王博


GPT-5的发布将AI行业的增长焦虑摆在了台面——虽然GPT-5的效果并未达预期,但中美大模型之间的竞争依然焦灼。进入理性阵痛期的国内大模型公司仍在突围应变,各家都不希望在这场竞争中掉队。


“到了十年来最好的状态。”半个月前百川智能创始人、CEO王小川这样向「甲子光年」形容他的近况。


「甲子光年」和王小川结识多年,但这句话让我们有些意外,同时也有些期待。


今天,我们找到了他的“好状态”的来源——百川智能开源医疗增强大模型Baichuan-M2正式发布


百川不仅发了新模型,新模型还很强。


OpenAI发布的HealthBench是一个医疗健康领域的评估测试集,评估结果显示,在HealthBench上,Baichuan-M2全面超越了当前所有前沿开源模型。


资讯配图

HealthBench评估测试结果,Baichuan-M2在最顶端


而HealthBench Hard是一个专门设计的困难场景评测集。在评测HealthBench Hard发布时,没有任何模型可以超过32分,甚至很多前沿模型只能得到0分的成绩。Baichuan-M2和GPT-5是目前全球唯二超过32分的模型,这体现了Baichuan-M2在解决复杂医疗场景任务上的优秀能力。


资讯配图

HealthBench Hard评估测试结果


此外,在中国临床诊疗场景的问题评测中,对比gpt-oss系列模型,Baichuan-M2则展现出更明显的可用性优势。


两年前,在百川智能官宣成立当天,王小川就对我们说:“(OpenAI等公司)他们可以用几万张卡跑模型去通向AGI,但有些深水区他们就不碰了,比如医学,他们可能躲着走,但我要去碰这些东西,我需要更考虑落地应用。”


2024年7月战略会,百川决定聚焦医疗。2025年1月24日,百川发布了Baichuan-M1-preview同时开源了 Baichuan-M1 的小尺寸版模型Baichuan-M1-14B,该模型为行业首个医疗增强开源模型。它的医疗能力超越了更大参数量的Qwen2.5-72B,与o1-mini相差无几。而这次发布的Baichuan-M2依旧延续开源路线,参数量32B,为真实世界的医疗推理任务设计。


Baichuan-M2的亮点之一是患者模拟器。今年1月,百川在arXiv上发表“AI患者模拟器”论文,并基于该范式开源Baichuan-M1。后来,百川升级了“AI患者模拟器”并引入模型端到端强化学习,训练发布了Baichuan-M2。


虽然AI医疗赛道远离大厂射程,不需要正面与其竞争,但这并不是一条容易的路。


数据、合规、技术落地等难题将很多公司挡在壁垒之外,聚焦医疗的百川在一条少有人走的路上行进,同行者寥寥,也时不时也会面临“为何选择这条窄路”的质疑。


但近期,行业的水温正在发生变化:AI的影响力逐渐传导到最末端场景,甚至成为了医院的新兴奋点。一方面,全国大三甲医院积极抢占新技术高地,积极拥抱AI来提高诊疗天花板;另一方面,进入医改深水期的医疗机构生存压力日渐增加,这也倒逼医疗机构通过新技术压缩成本来实现医疗普惠。


数据显示,2024年中国百强医院已累计发布至少60个专科大模型。昔日对人工智能持谨慎观望态度的公立医院,也担心错过新技术浪潮,开始接纳并引入大模型。


在大洋彼岸,新发布的GPT-5也加注了在医疗场景的筹码。英伟达、亚马逊、谷歌、IBM等科技巨头纷纷切入医疗领域,与相关企业寻求深度合作。


这些变化,也验证了百川此前的技术猜想——医疗是大模型皇冠上的明珠。他们坚信医疗健康是智能时代最大的应用之一,任何一个AI技术在医疗上都有用武之地。




1.从审视,到拥抱

资讯配图


虽然AI医疗前景广阔,甚至上限远超AGI,但一直被行业质疑这并不是一门“好生意”。


其中难点在于,医疗行业期待着“颠覆性技术”的横空出世,却受限于数据安全和临床容错低等问题,对AI技术持审视谨慎态度。


这增加了高质量医疗数据的获得门槛,同时各医疗机构之间标准不同,因此数据难以共享。有行业人士透露,由于缺乏高质量训练数据,约八成医疗大模型项目止步于基础研发,无法进入专业领域增强的实质研发阶段。


相对互联网行业,医疗、制药非常传统和封闭,这就导致了AI医疗赛道难以打开市场,渗透情况并不乐观。相比发展速度迅猛的AI Chatbot赛道,AI医疗发展要缓慢许多,因此行业认为医疗AI没有这么快到来,这也让百川在最初遭遇了不少质疑的声音。


然而,风险与机遇并存。躬身入局一个还未完全成熟的赛道,需要承受拓荒期的阵痛,但也代表着能在行业拐点来临时占据先发优势。


这个拐点,比大多数人预想得还要突然。2025年开年后,AI医疗行业的水温变了,AI医疗市场逐步被激活。由于DeepSeek等AI工具的崛起,让医疗行业对AI技术开始了从观望到拥抱的转变,他们担心的是,错失新一波的技术浪潮,在可能发生的行业洗牌中落后于人。


医保改革也加速了这一进程的到来。医保基金将逐步跳过医院,直接与药械企业结算,可能对公立医院的现金流造成更大冲击。医疗机构面临的生存压力,也迫使他们不得不将AI视作转型的“解药”。


这种心态的转变,使得一年前还在观望的医院,开始争相部署大模型。


仅春节后三周,全国就有92家三甲医院完成大模型的本地化部署,其中包括北上广多家顶级医院。百川也借此落地了标杆案例:3月20日,百川与北京儿童医院、小儿方健康共同发布了全球首个儿科大模型——“福棠·百川”儿科大模型。


资讯配图

“福棠·百川”儿科大模型及AI儿科医生产品发布现场,图片来源:百川智能


这也得益于百川前期的行业积淀:在2024年底前组建了高水平的医学部,能指导和支持百川医疗模型的研发工作,推动与高水平医疗机构的合作。目前北京十三家国家医学中心,有七家已经和百川建立了联系。


这些医疗机构也希望,借助大模型突破传统医疗的能力边界,能像专医生一样整合最佳医学证据,为患者制定科学、个性化的诊疗方案。


这也对医疗大模型的准确率提出了更高要求。以“福棠·百川”儿科大模型为例,在儿科多学科专家会诊中,其给出的诊疗方案与北京儿童医院专家会诊结果吻合率达95%。大模型参与会诊,使得顶级医疗机构结合AI形成新的医疗模式成为可能。


这种变化也体现在医生个体的诊疗行为转变上。


数据显示,一、二级医生中接近一半已使用过AI-CDSS软件,他们对AI医疗软件的接受程度逐步提高,且有将其引入临床工作的趋势。可以预见的是,随着年轻医生逐渐成为中坚力量,未来将有更多医生以开放的态度接受Al。


这一现状,是行业的长期主义者早就预见的,他们判断基于,医疗行业的瓶颈是优质的医生的培养和供给,大模型能力边界的不断跃迁带来破局的可能——大模型智能体能提供无限的AI医生供给,改善医疗行业的生产力难题。同时,医疗界长期存在的痛点问题,包括人员不足、效率不高、医疗资源配置不均等,让行业内外寄希望于找到新技术的解药。




2.AI是解药吗?

资讯配图


实际上,上述痛点都指向一个核心指标——医疗行业的生产力问题。行业缺乏全病程、全生命周期的真实数据和优质的医生的培养和供给。


另外,目前国内医疗资源呈现出典型的结构性失衡局面。最新统计表明,全国医疗机构中95%以上是基层医疗机构,三级甲等医院占比仅0.25%。由于患者就医选择的集中化倾向,这种供需矛盾表现得尤为突出。这种"基层冷、大医院热"的现象,不仅加剧了看病难问题,也制约着分级诊疗制度的有效实施。


AI如何才能触及这些核心问题?


百川的破局路径是“造医生-改路径-促医学”。


通过推广AI医生,解决供需失衡。他们重点培育最紧缺的科室方向,如全科、儿科,通过AI医生实现规模化供给。AI与真人医生协作,提升基层和专科医疗的可及性,缓解医疗资源分布不均问题。


例如,百川AI助诊仪在海淀区多个社区卫生服务中心上岗,“AI+真人”的双医模式累计服务7743人次。上文提到的“福棠·百川”AI儿科医生也针对性地开发了基层版,帮助基层医生实现儿童病毒性脑炎的初步诊断。


AI医生在基层医疗的应用,在提高基层医生诊疗水平的同时,改变就诊路径,从而助力分级诊疗体系建设。


AI医生具有丰富的医学知识以及媲美三甲主治医师的诊疗能力,其以双医模式的形式部署到基层医疗机构之后,能够为基层医生查漏补缺,相当于为每一位基层医生配备了一个三甲主治医师的助手。如此一来,很多常见病在基层医院就能解决,居民就不用小病也抢号挤三甲了,从而实现就诊路径的改变,助力分级诊疗体系建设。


另外,AI医生的普及也能解决就诊过程中的最大痛点——无法获取病人全周期数据。


当AI医生成为每个人生活中的标配后,它能够掌握用户全生命周期的数据,甚至比医生更加了解病人的整体健康情况,这有助于医院更准确地判断病情。


在这些服务中产生的数据和对话,将助力临床医学和流行病学突破性发展,并有望建立生命模型,最终走向个体化精准医疗。


从这个角度来说,在医疗领域,AI并不只是简单的工具,还有着扩展人脑认知边界和突破现有医疗范式天花板的可能,甚至能为全人类的健康做出贡献。


这一美好愿景,也是许多AI医疗从业者坚持前行的精神动力


资讯配图

国内首次“AI儿科医生+多学科专家”的双医并行多学科会诊


目前,行业在这些方向上的探索,也已经初具雏形,基层医院也开始积极探索这些技术路径的深度应用,早在2024年底,海淀区就联合百川智能率先探索以AI 助力基层医疗发展的新路径,来共同打造“AI医生-真人医生双医协同”的基层医疗服务新模式。


这些案例也预示着,AI医疗普惠的愿景正在加速实现。




3.寻找通向星辰大海的最佳技术路径

资讯配图


在真实诊疗中,医生需要处理模糊的病情描述、动态的医患沟通、个性化的治疗决策,这对大模型的逻辑推理、知识整合、交互能力提出了更高要求。


百川智能最新发布的Baichuan-M2,也针对这些指标进行了性能及场景优化提升。


在Baichuan-M2的构建过程中,百川结合医疗场景自身特点设计了一套较为全面的医疗Verifier系统。其核心方法是通过来自医疗关键子场景的医生思维的数据训练,使其对齐医生思维。并且结合来源于真实世界的医疗任务,围绕Large Verifier System开展端到端强化学习,提升了模型解决复杂医疗场景任务上的能力。


得益于这些技术链路的改进,Baichuan-M2在HealthBench上的表现不错。HealthBench Hard的评测结果显示,Baichuan-M2和GPT-5是目前全球唯二超过32分的模型。


通过中期训练构建高质量医疗语料和通专兼顾的训练策略,使得Baichuan-M2在中国医疗场景的优势表现更为明显。在中国临床诊疗场景的问题评测中,对比gpt-oss系列模型,Baichuan-M2展现出更明显的可用性优势,例如针对临床诊疗的案例,M2更贴合中国医疗场景,更遵循中国权威指南推荐。


鲁棒性差也是AI医疗落地的一大痛点,这是因为真实临床医患对话场景中患者的表达往往具有种种噪声:症状描述因个体认知差异(年龄、文化、教育背景等)而带有偏见或是遗漏。


为了提升模型的鲁棒性和自适应性,百川构建了“患者模拟器”。


资讯配图

“患者模拟器”示意图


这是一个基于真实病例数据构建的AI系统,能够模拟具有特定疾病背景、个体特征和行为模式的虚拟患者,在医患对话中提供真实的症状表达和交互反应。结合患者模拟器,训练模型在信息不全、表述模糊、前后矛盾等真实医患对话中仍能作出合理决策。


尽管AI技术可以针对医疗环节的痛点“对症下药”,但这项技术能否最终落地,最终标准始终是临床实用性及ROI——模型能否真正服务于医生、优化诊疗流程、提升患者体验。这也要求模型能够在低算力成本部署下实现更准确的诊疗结果。


同时,医疗行业的特殊性决定了私有化低成本部署是刚需——医疗机构既需要高性能 AI,又受限于预算和算力,且对数据隐私极为敏感。针对这一痛点,Baichuan-M2以几乎最低的部署成本在HealthBench上取得了最优效果,相比于OpenAI最新开源的gpt-oss-120b,再一次前移了帕累托前沿,从而进一步提升了模型在真实医疗场景中的落地可能性与可扩展性。


资讯配图

北京儿童医院与百川智能联合研发的“AI儿科医生”


目前,百川已经与北京市海淀区卫健委、北京大学第三医院、国家儿童医学中心等合作伙伴展开对Baichuan-M2的探索应用。这也是百川一直以来致力的方向,在受众面最大、最紧缺的医生方向全科、儿科方向探索。


虽然星辰大海的终极愿景还很遥远,但模型的迭代、技术的迭代和行业共识的共同推动,让这条路径上的每个里程碑,都可能重构人类对抗疾病的方式。


道阻且长,行则将至。AI 医疗的发展仍面临诸多难题,但每一次突破都让我们离星辰大海更近一些。


*完整技术博客可点击阅读原文链接


(封面图来源:AI生成;文中图片来源:百川智能)




END.




资讯配图
资讯配图


资讯配图资讯配图

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI 医疗
more
大模型训练新突破!“不对称”训练让AI学会自我反思,推理零开销
AI顶会模式出了问题?  「不发表,就出局」的恶性循环,正在压垮整个AI学界
OpenAI拟投资脑机接口公司,挑战Neuralink
GPT-5的“克制” 与Grok4的“免费”:AI巨头开战
AI Coding大佬聊透了:产品智能重要还是用户体验重要?答案让人意外
AGICamp 第 007 周 AI 应用榜:长视频一键转化小红书爆款,晚间副业最佳效能工具?
研究者警告:强化学习暗藏「策略悬崖」危机,AI对齐的根本性挑战浮现
过度依赖AI的副作用?研究显示:医生技能退化、癌症辨识力下降20%
AI女友24h陪玩,全球800万人上头!这群AI创企靠百度开挂
深圳半导体存储企业卖身!AI大模型公司出手
Copyright © 2025 成都科技区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号