西湖大学发布SaprotHub,让生物学家能够轻松训练调用蛋白质语言模型

ScienceAI 2025-10-28 11:57

西湖大学发布SaprotHub,让生物学家能够轻松训练调用蛋白质语言模型图1


西湖大学发布SaprotHub,让生物学家能够轻松训练调用蛋白质语言模型图2

作者 | 论文团队

编辑 | ScienceAI

如同人类拥有语言,生命世界也有一套由氨基酸序列构成的「分子语言」—— 蛋白质 。近年来,人工智能领域的蛋白质语言模型(PLMs)展现出解码这套语言的强大能力,能够精准预测蛋白质的结构与功能。

然而,这些尖端模型的训练与使用,往往需要深厚的机器学习专业知识和编程能力,这在 AI 开发者与广大生物学家之间形成了一道鸿沟。

为了打破这一壁垒,西湖大学原发杰团队首先提出了一种新颖的蛋白质表征方法 —— 将蛋白质一维序列与三维结构相结合形成「结构感知」词汇表并据此训练出了蛋白质语言大模型 Saprot。

在此基础上,团队进一步推出了 SaprotHub 开源平台 。该平台旨在将 Saprot 等一系列先进蛋白质语言模型的能力开放给生命科学领域研究者,它也是开放蛋白质模型联盟(Open Protein Modeling Consortium, OPMC)为推动全球科研协作、共建开源社区而迈出的关键第一步。

这项研究成果已于近期发表在国际顶尖期刊《自然・生物技术》(Nature Biotechnology)上,论文题为《Democratizing Protein Language Model Training, Sharing and Collaboration》。

西湖大学发布SaprotHub,让生物学家能够轻松训练调用蛋白质语言模型图3

论文地址:https://www.nature.com/articles/s41587-025-02859-7

蛋白质研究的挑战:从模型「孤岛」到协作「蓝海」

蛋白质是生命活动的基石,而近年来,以 AlphaFold2 为代表的蛋白质语言模型(PLMs)在预测蛋白质结构与功能方面取得了革命性突破。然而,这些强大的 AI 工具如同精密的专业设备,其训练和部署通常需要深厚的机器学习知识,这为广大从事实验研究的生物学家设置了难以逾越的技术鸿沟。从复杂的编程环境配置,到海量数据的预处理,再到模型训练和评估,整个流程充满了挑战。这不仅限制了 AI 技术的普及,也减缓了其在医药、生物技术等领域的创新应用进程。

西湖大学发布SaprotHub,让生物学家能够轻松训练调用蛋白质语言模型图4

图 1. Saprot 模型架构

SaprotHub:三大支柱构建的开源协作新范式

为了应对这一挑战,团队构建了以 SaprotHub 为核心的一站式解决方案,它不仅是一个平台,更是一个融合了前沿 AI 大模型技术、开源工具和全球社区的完整生态系统:

ColabSaprot链接:https://colab.research.google.com/github/westlake-repl/SaprotHub/blob/main/colab/SaprotHub_v2.ipynb

教程链接:

https://www.bilibili.com/video/BV1Y1i9YBEhv

https://www.youtube.com/watch?v=nmLtjlCI_7M

西湖大学发布SaprotHub,让生物学家能够轻松训练调用蛋白质语言模型图5

图 2. ColabSaprot 在线平台,具备细致的操作介绍以及简易的使用步骤

SaprotHub 模型与数据仓库:https://huggingface.co/SaProtHub

搜索引擎:https://huggingface.co/spaces/SaProtHub/SaprotHub-search

西湖大学发布SaprotHub,让生物学家能够轻松训练调用蛋白质语言模型图6

图 3. SaprotHub 利用 LoRA 技术存储模型权重,实现模型的便利共享

从虚拟到现实:计算机模拟性能验证与多项湿实验验证

SaprotHub 的价值不仅在于其便捷性,更在于其预测准确性。在团队开展的用户研究中,12 位没有 AI 背景的生物学研究者使用该平台,取得了与 AI 研究者相媲美的成果。

西湖大学发布SaprotHub,让生物学家能够轻松训练调用蛋白质语言模型图7

图 4. 生物研究者利用平台能够训练出和 AI 研究者相媲美的成果

更进一步,平台预测的有效性在一系列生物湿实验中得到了验证:

这些成功案例证明,SaprotHub 能够将 AI 的预测能力转化为现实世界中的生物学功能突破。

核心突破

1. 全新蛋白质语言模型:发布了具备技术创新(结构感知词汇表)的 Saprot 蛋白质语言大模型。其在 14 项基准测试中性能超越了 ESM-2 等现有经典模型,已在该领域展现了其作为基础模型的影响力。

2. 开源协作范式:作为开放蛋白质模型联盟(OPMC)的第一步,汇聚了来自 MIT、哈佛、牛津、首尔大学等全球顶尖机构的智慧,为蛋白质领域建立了集模型训练、分享、合作、迭代于一体的开源社区平台。

3. 蛋白质语言模型技术民主化:通过「一键式」的 ColabSaprot 工具,将先进蛋白质语言模型的复杂训练和使用流程民主化,赋能全球不具备编程背景的生物学家,使其从 AI 的「使用者」转变为「创造者」和「贡献者」。

4. 真实场景验证:平台的有效性在工业酶改造、基因编辑工具优化等多个真实的湿实验场景中得到验证,展示了其通过计算机模拟辅助现实生物学突破的能力。

结语与展望

SaprotHub 的发布,不止是提供了一个工具。它以一个创新的自研蛋白质语言模型(Saprot)为基础,通过开源平台(ColabSaprot)来催化一个全球性的科研协作网络(OPMC)。这为 AI 辅助的生命科学研究提供了一种可持续发展的「开源、共建、共享」模式。目前,该生态已进一步集成了 ESM-2、ProtT5 等更多业界主流模型 ,开启了蛋白质科学的「大航海时代」。

西湖大学原发杰实验室现有 2026 年博士研究生招生名额,有意向者可将个人简历(含教育背景、科研经历、成果证明等)及相关材料投递至指定邮箱,邮件主题请注明「2026 博士申请 + 姓名」。

投递邮箱:yuanfajie@westlake.edu.cn

人工智能 × [ 生物 神经科学 数学 物理 化学 材料 ]

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
more
不做外卖不谈 AI,拼多多暗渡陈仓
苹果年度 App 出炉!女儿想学单词,他直接做了个 AI 神器 | 对话 CapWords
刚刚,这个全网爆款 AI 吊坠突然卖身 Meta,大批网友喊退款
探路者6.78亿收购双芯企:瞄准Mini LED和AI赛道
iPhone Air成苹果最不保值手机;黄仁勋:4点起来工作,子女不敢懈怠;影翎全景无人机正式上市,6799起售 | 极客早知道
又强大又便宜!DeepSeek V3.2又要让谷歌和OpenAI慌了
李飞飞炮轰 AI 圈两大乱象:要么贩卖恐慌,要么画饼充饥,都是误导大众
首发即爆单!华为AI玩具火出圈,千亿市场芯片厂商加速入局
AI竞赛升级,OpenAI正积极应对谷歌追赶势头
北京AI芯片四强出炉,非GPU阵营占三席!国产算力格局要变天?
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号