ICML 2025 | AI虚拟细胞落地重大进展:清华AIR,水木分子等首创并开源多尺度空间转录组学基础大模型SToFM

ScienceAI 2025-08-27 11:57

将 ScienceAI 设为星标

第一时间掌握

新鲜的 AI for Science 资讯

资讯配图


资讯配图

作者 | 论文团队

编辑 | ScienceAI

AI 大模型竞赛风起云涌,垂直领域竞争激烈。AI 基础大模型的能力正进一步向各科学研究领域渗透,而生物及生命科学就是 AI 大模型的下一个战场。

2025 年可以视为 AI 虚拟细胞元年。2024 年底斯坦福大学、基因泰克制药公司和陈 - 扎克伯格基金会的研究团队在《Cell》杂志上发表一篇利用大模型 AI 技术构建虚拟细胞可能性的论文,题为《How to build the virtual cell with artificial intelligence: Priorities and Opportunities》,开启了细胞多组学、虚拟细胞和大模型 AI 等前沿生物与 AI 技术交叉创新的讨论和思潮,生物医药和人工智能领域的前瞻者正在积极探索新方向,掀开 AI 制药和揭示生命终极奥秘的新篇章。

继蛋白质建模之后,转录组学建模成为下一个重大攻关课题。尤其是空间转录组学扩展了单细胞转录组学,让科学家们对细胞的研究可以从单细胞维度进一步扩展到空间多细胞维度,更加接近揭示细胞对于生命现象的真实意义。

2025 年 7 月,清华大学智能产业研究院(AIR)、水木分子等联合研究成果 ——《SToFM:多尺度空间转录学基础大模型》(SToFM: a Multi-scale Foundation Model for Spatial Transcriptomics)正式入选第 42 届国际机器学习学术大会 ICML 2025,SToFM 也是目前性能最强的空间转录组学基础大模型。

资讯配图

论文链接:https://arxiv.org/abs/2507.11588

资讯配图

SToFM 标志着细胞组学人工智能研究的全新起点,也是推进 AI 虚拟细胞落地的重大进展。SToFM 已经在 Github 上公开代码,清华AIR 团队也即将在 OpenBioMed 开源平台上发布 SToFM

资讯配图

AI 虚拟细胞建模

AI 虚拟细胞(AIVC)即在大模型 AI 技术的基础上,构建从基因分子层面到微观的细胞层面再到宏观的组织和器官层面的细胞数字孪生,既能表达细胞状态,也能以各种方式与虚拟的器官和人体环境进行互动,用数字方式实现细胞的生物功能。

虚拟细胞涉及到了原子、分子、细胞、组织等不同尺度层面,近年来在模拟细胞核、线粒体、内质网、高尔基体、溶酶体、细胞骨架、细胞膜等领域也有了初步尝试的机器学习、深度学习、有限元分析等算法,而大模型能够统一这些尺度和模态的算法与数据,呈现更为完整的虚拟细胞或细胞数字孪生,让启迪生命现象「智能涌现」的 AI 虚拟细胞「呼之欲出」。

细胞多组学是近年来生物信息学和系统生物学领域的重要进展,通过高通量测序技术对细胞内的各种分子进行大规模、高分辨率的检测。高通量技术能够快速、大规模处理样本并获取海量数据,广泛应用于基因组学、蛋白质组学、代谢组学等领域,主要包括高通量 RNA 测序技术、高通量蛋白质组学分析技术以及其他高通量检测方法。

随着高通量技术的发展,细胞多组学数据急剧增长,如何分析和表达这些海量数据,特别是融合多尺度、多组学数据,从而获得更为全面、深入的细胞功能信息,成为了下一个挑战。机器学习、大模型等 AI 技术为分析和融合多尺度、多组学海量数据,提供了前所未有的机遇,也推动了虚拟细胞的实现。

SToFM:空间转录领域开创性研究

综上所述,为了更好地构建 AI 虚拟细胞,单细胞和多细胞的 AI 建模十分重要。根据上述《Cell》论文,构建 AI 虚拟细胞的统一表达(Universal Representation,UR)乃重中之重。

AI 虚拟细胞包括分子尺度、单细胞尺度和多细胞尺度,分子尺度包括 DNA、RNA 和蛋白质表达,单细胞尺度需要在组织和器官空间表达细胞,多细胞尺度则进一步表达细胞与细胞、细胞与器官组织的关系与互动。

资讯配图

图示:AI 虚拟细胞统一表示 UR 框架,来源:《How to build the virtual cell with artificial intelligence: Priorities and opportunities》,《Cell》

业界已经在原子、分子和单细胞尺度的生物信息模态表达取得了重要进展,例如清华大学 AIR 与水木分子等研发的基于原子统一表征的分子大模型 PhamolixFM、蛋白质大模型 ESM-AA、基于单细胞 RNA 测序数据的单细胞大模型 LangCell 等,但是在组织和器官空间的多细胞表达方面还处于研究阶段,这也是构建 AI 虚拟细胞统一表达 UR 的关键一环。SToFM 研究者之所以选择建立多尺度空间转录组学基础大模型,正是将 AI 虚拟细胞模式从单细胞扩展到多细胞,是迈向「AI 虚拟细胞」的重要一步。

什么是「多尺度空间转录组学基础大模型」?空间转录组学技术是结合组织和器官不同位置的单细胞测序,从而将组织和器官的不同功能区域与细胞分布结合起来,或者可以理解为识别细胞在不同组织器官空间的异质性,例如肿瘤核心和边缘的细胞异同。因此构建空间转录组学基础大模型,就需要结合基因、细胞和组织等不同尺度的模态和数据。

资讯配图

图示:空间转录数据的多尺度信息,来源:ICML 2025 学术论文《SToFM: a Multi-scale Foundation Model for Spatial Transcriptomics

空转数据的特性为建模带来了挑战。从含有大量细胞的组织切片中捕获多尺度信息至关重要,如图所示,ST (Spatial Transcriptomics, 空间转录组学,简称空转) 数据包含来自多个尺度的生物信息。从宏观尺度可以提取组织形态和器官结构信息,如功能区和解剖层;从微观尺度可以通过分析与空间相邻细胞的细胞间关系来捕获细胞上下文和细胞间互动;从基因尺度可以通过分析基因表达谱来深入研究每个细胞的详细信息。分析空转数据需要全面了解不同尺度上的生物信息。

空间转录数据包括了多个尺度的生物信息。从宏观尺度,可以提取组织形态和器官结构信息,如功能区和解剖层;从微观尺度,可以通过分析空间相邻细胞间关系,捕获「上下文」和细胞间的互动;从基因尺度,可以通过分析基因表达谱,深入研究每个细胞的详细信息。

建立空间转录组学基础大模型的一大挑战是海量的空间转录数据及不同尺度数据的融合分析。空间转录是对器官或组织进行切片,再对切片上的单细胞测序,每个切片上有上万的细胞或测序点,形成了 2D 点云,而每个点又含有高达 2 万个基因表达数据,因此形成了多维度海量数据。对于不同尺度的海量数据进行融合分析,就需要借助大模型的能力。

为了解决这一挑战,SToFM 作者提出了一个多尺度的 ST 空间转录组学基础模型,捕捉和融合分析大量切片上的多尺度数据。SToFM 在每一个 ST 切片上提取了多尺度信息,即在子切片内提取基因、微观和宏观层面的信息,对每一个子切片采用 SE (2) Transformer 神经网络模型将转录数据与空间信息结合起来进行表示学习,同时 SToFM 论文对于预训练目标和策略进行了详细阐述。

具体来看 SToFM 的算法框架。

资讯配图

图示:SToFM 算法模型框架,来源:ICML 2025 学术论文《SToFM: a Multi-scale Foundation Model for Spatial Transcriptomics

首先,在基因尺度,SToFM 采用一种经过了应用域自适应的细胞编码器,表达了每一个单细胞;在微观层面,SToFM 将 ST 切片分为若干子切片,将虚拟细胞加入每一个子切片,每一个 ST 子切片都包含上千个细胞和超过 50 个虚拟细胞。请见 SToFM 算法模型框架图(a)绿色部分。

其次SToFM 在预训练阶段,经过了应用域自适应 (Domain Adaptation) 的细胞编码器,被用于重新计算细胞嵌入词,采用反向传播算法对细胞编码器进行训练。请见 SToFM 算法模型框架图(a)蓝色部分。

之后SToFM 采用一种通用 3D 分子表示学习模型 SE(2)Transformer 对随机掩码细胞嵌入词和噪声增强的距离矩阵进行联合建模,输出表达被用于重建之前的细胞嵌入词和空间距离,这两个过程被称为掩码细胞建模(Masked Cell Modelling,MCM)和成对距离恢复(Pairwise Distance Recovery,PDR)。请见 SToFM 算法模型框架图(b)。

细胞编码器的应用域自适应(Domain adaptation)。因为单细胞基因表达谱的高维和稀疏特性,需要先训练一个高质量细胞编码器进行降维处理。由于技术限制,ST 数据经常有缺陷,例如有限的基因覆盖、数据过拟合等,因此对于单细胞转录数据而言,ST 数据质量相对较低。那么,在已有的单细胞转录模型基础上进行增量训练,有助于将单细胞转录的经验和知识应用于具有不同数据分布特征的 ST 数据。SToFM 采用目前最先进的基于 Transformer 的单细胞基础模型 Geneformer,用于初始化细胞编码器。然后,SToFM 用细胞编码器对于 ST 数据中的细胞进行增量训练,以实现应用域自适应。

微观和宏观信息整合。SToFM 设计了多尺度方式,从而有效整合来自微观和宏观的信息。SToFM 根据空间坐标将 ST 切片再切分为若干子切片,每个子切片有约 1000 个细胞。切分成子切片,有助于在计算效率和保留足够的细胞间相互作用取得平衡。SToFM 采用 Leiden 算法,基于细胞嵌入词和细胞空间位置,将子切片上的所有细胞进行聚类,将每一个聚类族纳入到一个虚拟细胞(Virtual Cell,简称 VC)中,该虚拟细胞的词嵌入和位置坐标经过了集群内所有细胞的平均化。虚拟细胞保留了子切片的主要形态,用于代表宏观信息的压缩。SToFM 将虚拟细胞纳入到每一个子切片上,从而让 SToFM 算法既能够学习微观信息,又能获得宏观空间结构。

多尺度 ST 表示学习。多尺度 ST 表示学习包括两大部分:基于细胞编码器的二次前向传播和基于 SE (2) Transformer 的表示学习。SToFM 执行了细胞编码器的二次前向传播,以通过梯度反向传播对细胞编码器的参数进行更新,该步骤只能在训练阶段执行,而嵌入词可直接用于推理阶段。在基于 SE (2) Transformer 的表示学习方面,SToFM 采用了 Uni-Mol 提出的 SE (2) Transformer 架构,该 3D 分子表示学习模型已经在蛋白质表示和小分子表示方面取得了很好的效果,能够实现细胞嵌入词与细胞位置的联合编码。距离矩阵被用于获得初始的成对表示,在 Transformer 的每一层,来自细胞表示的注意力矩阵都被加入到了成对表示中,更新后的成对表示再被用于实际上的注意力打分以更新细胞表示,该方法已经在 AlphaFold 等算法中被验证。SToFM 作者认为,由于 ST 数据中细胞与细胞间互动的强空间距离属性,距离信息很适合成对表示。

实验验证

为了训练 SToFM,作者构建了迄今为止最大的高分辨率 ST 预训练语料库 SToCorpus-88M,该语料库包括约 2000 个通过 6 种 ST 技术获得的高分辨率 ST 切片,总计达 8800 万个细胞。

为了验证 SToFM 在整合 ST 数据的多尺度信息方面的有效性,作者建立了一个包含多个重要生物任务的综合基准,并在两个具有生物学意义的实验场景中评估了 StoFM 在组织区域语义划分上的性能:人类胚胎结构划分和大脑背外侧前额叶皮层(DLPFC)层次划分。结果表明,在不同组织区域语义分割任务中,SToFM 优于现有方法。

值得注意的是,作者观察到在跨切片设置中,SToFM 大幅超越了其他模型,表明其稳健性和可迁移性。作者将这归因于 SToFM 中微观和宏观信息的整合,因为组织形态和细胞间互作用模式更有可能在不同的 ST 切片之间迁移。

资讯配图

作者的实验还证明了 SToFM 在空间细胞类型注释和零样本细胞类型聚类任务上的出色性能。这证实纳入空间信息可以帮助理解 ST 数据上的细胞类型。具体而言,即使在低质量基因表达数据的场景中,细胞所在的组织区域以及细胞邻域中的细胞类型组成也可以帮助推断细胞类型。

资讯配图
资讯配图

此外,SToFM 还在空间测序点解卷积、空间基因表达谱数据插补等空转研究中的重要数据分析任务上表现出色,这进一步展现了其在细胞生信分析中的应用价值。

资讯配图
资讯配图

作者将 SToFM 在不同下游任务中的出色表现归功于多尺度信息的整合,因为组织形态、细胞 - 细胞相互作用模式和基因表达语义都有助于在不同的 ST 切片上获得一致且可迁移的表征。

小结

空间转录组学已经积累了海量数据,但缺乏一个能够统一理解这些数据的通用框架,而 SToFM 正是填补这一空白的起点。SToFM 不仅填补了空间转录组学基础大模型的空间,也是迈向 AI 虚拟细胞统一表示的重要一步。未来,AI 虚拟细胞不仅能有效建模细胞信号通路、组织环境、细胞邻域关系,还能模拟基因敲除、药物作用等外界扰动,实现前所未有的生物智能表示,助力开辟人工智能技术用于组织再生、癌症诊断、药物开发等领域的全新路径。

作者团队

Suyuan Zhao, Yizhen Luo, Ganbo Yang, Yan Zhong, Hao Zhou, Zaiqing Nie

Suyuan Zhao(赵苏原 , 清华大学智能产业研究院 AIR 博士),Yizhen Luo(罗弈桢, 清华大学智能产业研究院 AIR 博士),Ganbo Yang(杨淦博,清华大学计算机系, 清华大学智能产业研究院 AIR 实习生),Yan Zhong(钟岩,北京大学博士),Hao Zhou(周浩,清华大学智能产业研究院 AIR 副研究员、副教授),Zaiqing Nie(聂再清, 清华大学国强教授, 清华大学智能产业研究院 AIR 首席研究员, 水木分子首席科学家)。

参考内容:

1.《How to build the virtual cell with artificial intelligence: Priorities and opportunities》,《Cell》

https://www.cell.com/cell/fulltext/S0092-8674 (24) 01332-1

2.《Uni-Mol: A Universal 3D Molecular Representation Learning Framework》

https://openreview.net/forum?id=6K2RM6wVqKu


人工智能 × [ 生物 神经科学 数学 物理 化学 材料 ]

「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展

欢迎注标星,并点击右下角点赞在看

点击读原文,加入专业从业者社区,以获得更多交流合作机会及服务。

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI IC 开源
more
破解人机协作密码:工作技能拆成两层,AI执行人类决策成功率狂飙 | ICML 2025
IC设计展区 | 上海贝岭、芯海科技、灿芯半导体、晶心科技、华大九天、国微芯、硅芯科技、腾讯云......即将亮相湾芯展2025
【前沿】5499起 荣耀MagicVFlip2新款小折发布 骁龙8Gen3/5500mAh
【最后 1 天报名!】西门子 EDA 年度技术峰会|聚焦 AI EDA/3DIC/IC 设计验证等【上海站】即刻锁定席位
Scientific Data | 空军特色医学中心叶超群团队发布增强膝痛患者下肢运动想象EEG数据集分类研究
士兰微上半年利润大增1162%,IGBT及SiC业务营收暴增80%
Science Robotics 通过人机交互强化学习进行精确而灵巧的机器人操作
栅极驱动器环路设计对SiC MOSFET开关性能的影响
克莱斯勒发布Pacifica Grizzly Peak概念车!
英飞凌CoolSiC™ MOSFET G2最新产品荣获2025年度半导体市场创新表现奖
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号