80亿参数干翻千亿模型,这位CTO亲述:十年积累3.5亿医疗标注数据,靠垂直数据和反馈循环,建起百亿护城河

智能情报所 2025-08-24 17:03

编者按:当所有目光都聚焦于 AI 模型的能力上限时,这篇文章提供了一个关键的逆向视角:真正的商业护城河,往往源于对模型局限的深刻洞察与利用。

我们翻译此文,希望能为身处 AI 浪潮中的你,拨开技术喧嚣的迷雾,提供一份关于构建长期价值的清醒思考与实践蓝图,从中获得启发与收获。

作者:WILLIAM CHENG

日期:2025年8月23日


资讯配图

大多数工程领导者对人工智能的看法,其实是错的。

看到一个新模型,他们会问:我们多快能把它上线?但真正值得思考的问题是:它会在哪里碰壁?

Troy Astorino 很早就想通了这一点。他是 PicnicHealth 公司的首席技术官,他和团队打造了一项非凡的成就:一个仅有80亿参数的模型,在医疗任务上的表现却胜过了许多规模远大于它的前沿模型。

因为 Troy 深知,那些庞大而通用的模型究竟在何处力不从心,而他所有的工程设计,正是围绕这些局限展开的。

他的公司为医疗记录领域,构建了或许是全球最顶尖的大语言模型,不仅与世界十大制药公司中的七家合作,更在十年间积累了三亿五千万条临床医生的专业标注。

但 Troy 最宝贵的洞见,无关乎 AI 能力的上限有多高,而在于那些不可动摇的现实制约。正是这些制约,决定了你的 AI 项目最终是走向成功,还是沦为一场代价高昂的表演。

文件柜难题

Troy 在一个医生家庭长大,父母都是医生。儿时在父母诊所帮忙的他,曾被那铺天盖地的文件柜惊呆了。

后来,政府投入 400 亿美元推动医疗记录数字化,Troy 心想:太好了,软件终于能解决这个烂摊子了。

然而,事与愿违。大多数电子病历系统反而让医生的工作效率变得更低。

这件事让 Troy 领悟到一点:你永远不能把新技术简单地堆砌在已经过时的流程上。流程本身,必须随之变革

这一深刻的洞见,塑造了他此后的一切。

领导者需要重拾代码的时刻

技术变革时期,领导者的角色有一个很有趣的变化:工程领导者需要变得更懂技术,而不是更脱离技术。

2014 年 Troy 创立 PicnicHealth 时,他整天都在写代码。随着公司壮大,他也和所有工程领导者一样,从具体执行中抽身,专注于团队建设。

他认为,“对我而言,更高杠杆的打法是少做具体构建,多做团队建设。”

但当大语言模型浪潮来袭,Troy 必须掉转船头。他告诉我:“想要看清机会在哪里,你需要更多亲身实践的经验。”

为什么?因为只有亲手去做,才能真正理解现实的制约。微调在什么场景下才真正有效?哪些领域足够垂直,能够实现可靠的自动化?

这些机会,你不可能通过团队汇报来评估,因为技术本身变得太快了。

Troy 意识到,在技术日新月异的时代,工程领导者必须具备更深厚的技术实力,才能做出正确的决策。

他必须在两者间找到平衡:既要贴近技术一线,敏锐地发现制约因素,又要充分赋能团队,让他们做出最好的工作。

这并非微观管理,而是为了解可能性的边界,而进行的战略性情报收集。

数据的护城河

PicnicHealth 的优势,从来不是模型的规模,而是他们的数据。

他们拥有三亿五千万条标注,这些数据全部来自真实医生在过去十年间使用其系统的过程。

每当医生纠正一次 AI 的判断,模型就会变得更聪明。Troy 解释说:“这种质量的医疗记录数据,在公开的训练语料库里是找不到的。”

这便创造了一个有趣的现象:一个随时间不断自我强化的反馈循环。使用系统的医生越多,系统就越好用;系统越好用,就有越多的医生愿意用它。

大多数 AI 公司都忙着构建更强大的模型,而 PicnicHealth 却选择专注于构建更好的数据收集体系。

应用层的惊喜

2022 年,所有人都以为 AI 的价值会主要流向 OpenAI、Anthropic、Google 这些模型创造者。

这个逻辑看似无懈-可击:模型是核心,构建难度最高,理应攫取最大价值。

事实证明,这个看法并不全面。

“我很高兴,我们处在一个价值更多由应用层来创造和捕获的时代,” Troy 说。原因在于:基础模型正在快速商品化,但领域里的专业知识不会。

一个通用模型或许无所不知,但它不了解临床试验的具体流程,不清楚医生如何审阅病人档案,更不知道在你的专业领域里,哪些极端情况最致命。

就在这里,局限变成了优势。通过只专注于医疗记录,PicnicHealth 能针对那些在医疗领域至关重要,但在别处毫无意义的细节进行深度优化。

垂直深耕的策略

大多数 AI 项目之所以失败,是因为贪大求全,想一次性解决所有问题。

PicnicHealth 另辟蹊径,他们构建的 AI 智能体,只在公司自有的临床试验一体化系统中运行。这听起来限制很大,但实际上威力无穷。

当你能控制从数据输入到最终输出的整个流程时,你就可以在每一步都植入验证循环、人工监督和纠错机制。

你可以定义清晰的成功标准,创造出极度紧密的反馈周期。

那些通用的 AI 工具无法做到这点。它们想讨好所有人,最终的结果就是没有为任何人做到最好。

瓶颈永不消失

关于技术进步,有一个不变的定律:它从不消除瓶颈,只是转移瓶颈。

AI 加速了药物的发现,但药品的监管审批流程依然需要 7 到 10 年。

Troy 指出:“即便有再多潜在的新药被发现,距离人们真正用上它,也还有遥远的十年。”

这个规律无处不在。技术能力总在飞速发展,但要真正落地到具体行业和工作流程中,却需要漫长得多的时间。

这需要改变人的行为模式,远不止是开发出更好的软件那么简单。

给领导者的启示是:别指望 AI 能解决你当下的瓶颈,要预判它会创造出哪些新瓶颈。你的职责,就是找到它们

这对你意味着什么

如果你也在投身 AI 领域的建设,Troy 的思路提供了一条截然不同的道路:

  1. 先理解局限,再优化能力。

    大多数流程里都藏着瓶颈,再强的 AI 也无济于事。先把它们找出来。

  2. 构建数据飞轮,而非仅仅是模型。

    寻找那些能让用户的日常修正行为,转化为你独有数据集的工作流。在模型日益商品化的今天,这才是你真正的护城河。

  3. 先做精,再做广。

    从一个你能精确衡量成功、并快速迭代的受控环境开始。在垂直领域做到极致可靠的自动化,远胜于在所有领域都漏洞百出的半自动化。

  4. 技术变革期,技术领袖必须保持技术敏锐。

    你不可能在会议室里评估 AI 的机会,你需要亲自下场,去感受第一线的制约。

在你做下一个关于 AI 的决定前,请先问自己:

你是在解决一个真实的制约,还是在为一个本已失效的流程,穿上一件华丽的自动化外衣?

这其中的差别,决定了你最终是构建起一道护城河,还是仅仅开发了一个昂贵的功能。

原文地址:https://maestroai.substack.com/p/turning-model-limits-into-moats-with


一键三连点赞」「转发」「小心心

欢迎在评论区留下你的想法!


声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
医疗
more
80亿参数干翻千亿模型,这位CTO亲述:十年积累3.5亿医疗标注数据,靠垂直数据和反馈循环,建起百亿护城河
【公益案例展】科大讯飞——用人工智能建设美好世界,赋能教育公平、医疗普惠与无障碍社会
美敦力、强生、雅培、西门子医疗、费森尤斯医疗、飞利浦等27大全球医疗器械和诊断企业2025年第二季度财报业绩汇总
2025年中国生殖健康医疗器械行业深度研究报告:行业进入壁垒、竞争格局及战略咨询
攻克低液氦超导磁体技术,「普思影医疗」获近亿元A轮融资 | 早起看早期
一周前沿科技盘点丨一眼看清还能记住,氮化镓芯片让机器更聪明;飞秒激光也能“变速跑”,医疗加工迎来新利器
九安医疗投资,「科诺美」完成数千万元级A+轮融资|早起看早期
【数智化CIO展】南京市中医院信息中心副主任国强:体系引领 数智赋能 筑牢智慧医疗数据安全防线
穿刺介入医疗器械智能制造生产线建设项目可行性研究报告
2025年中国互联网医疗行业市场前景预测研究报告
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号