一个模型装下整个物种树！伯克利GPN-Star斩获基因预测双料冠军

新智元报道

编辑：元宇

【新智元导读】加州大学伯克利分校等机构的研究人员，近日推出了一种全新的基因组语言模型GPN-Star，可以将全基因组比对和物种树信息装进大模型，在人类基因变异预测方面达到了当前最先进的水平。

让大模型读懂物种关系，这可能吗？

近日，加州大学伯克利分校等机构的研究人员，推出了一个全新、通用且功能强大的GLM框架GPN-Star。

论文地址：https://www.biorxiv.org/content/10.1101/2025.09.21.677619v1

GPN-Star破解了传统GLMs又大又烧算力、且在一些预测任务中不如传统进化模型等短板。

同时，它也克服了GPN-MSA在新数据场景下泛化能力不足等弱点。

GPN-Star的三点重要改进

GPN-Star（Genomic Pretrained Network with Species Tree and Alignment Representations，融合物种进化树与序列比对表示的基因组预训练神经网络），是一种基因组语言模型，它的灵感来自经典进化模型，目标是画出演化轨迹。

研究人员采用了专门的Transformer架构，既能够捕捉到WGA中的进化信号，又能够融入基因组上下文信息（图1A）。

该模型是纯编码器，以掩码语言建模（MLM）为目标训练，输入跨物种WGA窗口和系统发育树。

相比GPN-MSA，GPN-Star实现了三点升级：

训练数据更加多样
GPN-MSA仅在人类基因组上进行掩码训练，而GPN-Star则在多个物种中预测被掩码的碱基，显著扩大了训练数据的规模与多样性。
显式引入物种间系统发育关系
GPN-Star通过定制的注意力模块，可能更贴近生物学实现更精准建模。
灵活适配任意比对数据
无需像GPN-MSA手动剔除近缘物种。

GPN-Star是一个通用且高度灵活的框架，可适用于任何物种的比对数据，仅需最小程度的超参数调优即可获得强大性能。

研究人员先将其在人类基因组落地，分别用目前最大规模的脊椎动物、哺乳动物与灵长类WGA数据分别训练了三个GPN-Star模型(V)、(M)、(P)（图1B）。

研究人员重点分析了2亿参数版本，结果显示其计算资源开销远低于之前的GLM模型。

与以往超长时跨度（例如从原核生物到人类）的GLM不同，GPN-Star聚焦于近缘系统发育距离（图1B）。

很多情况下，建模较短进化历史往往更具优势。尤其是在解释某些类型的遗传变异时，捕捉近期的进化约束效果更佳（图1C）。

致病性编码变异预测

研究人员系统评估了GPN-Star在一系列标准测试集中的预测能力。

对比PhyloP、PhastCons、CADD、以及新一代多物种GLM（如Nucleotide Transformer 2.5B、Evo-2 40B 和 GPN-MSA）之后，GPN-Star (V) 在精确率-召回曲线面积（AUPRC）方面表现最佳，与蛋白语言模型 ESM-1b相当（图 2A）。

研究人员用COSMIC数据库评估了GPN-Star体细胞错义变异的预测性能，结果GPN-Star(V)明显优于所有对比模型，表现出极强的体细胞致病性预测能力（图2B）。

研究人员还在ProteinGym的31个DMS数据集上测试，GPN-Star(V)为基因组级最佳，仅略逊蛋白专用ESM-1b（图2D）。

在非编码任务中，研究人员重点评估致病非编码变异。

评测用OMIM与HGMD，评测结果GPN-Star（M）双基准夺冠（图2E、F）。

考虑到启动子区域在转录起始和基因调控中的关键作用，研究人员还评估了GPN-Star在OMIM启动子变异中的表现，并启动了三个子专用模型：PromoterAI、SpeciesLM和GPN-Promoter。

如图2H所示，GPN-Star（M）在预测性能上明显优于所有对比模型，尤其是在与其他启动子模型的比较中，其提升幅度尤为显著。

定位错义变异

为了进一步评估GPN-Star的实用价值，研究人员还测试了它在对来自英国生物银行（UK Biobank）65个性状的GWAS（全基因组关联研究）精细定位错义变异中，区分潜在因果变异与非因果变异的能力。

在所有参评模型中，GPN-Star（M）在区分这些精细定位的错义变异中表现最好（图2C）。

在对英国生物银行的83个性状的GWAS精细定位数据的基准测试中，GPN-Star（M）再次优于所有其他模型（图2G）。

对于位于启动子区域的精细定位变异，GPN-Star（M）再次超越了所有模型，包括PromoterAI、SpeciesLM和GPN-Promoter（图2H）。

强大的全基因组变异解读框架

上述结果表明，GPN-Star是一个强大、多用途的全基因组变异解读框架。

研究人员在多个基准测试中，观察到基于更长进化时间尺度训练的模型，更容易预测编码变异以及低频、效应大的变异。

而非编码变异以及高频、效应较小的变异，则更适合使用在较短进化时间尺度上训练的模型进行预测。

PhyloP和PhastCons分数在三种进化时间尺度下也呈现出类似趋势，但在每一种时间尺度下，GPN-Star表现都优于二者（图2I）。

考虑到GPN-Star在致病变异和精细定位变异预测中的强劲表现，研究人员进一步探索了它在稀有变异关联分析（RVAT）中的应用潜力，发现GPN-Star提升了稀有变异关联分析的能力。

学习基因组功能元件及依赖关系

GLM模型可以通过预测被遮蔽的核苷酸来学习强大的序列表示。

为探究这一点，研究人员可视化了基因区、cCRE和背景区的基因组窗口嵌入（图4A）。

研究发现，保守序列窗口的嵌入在功能区域上的聚类性更强（图4B），说明GPN-Star在预测时能识别基因组的关键功能元素。

为了进一步分析GPN-Star是否理解基因组「语法」，研究人员系统地对序列中每个位置进行突变，并计算该变异对其它位置预测概率的影响。

在编码酶酪氨酸羟化酶的TH基因启动子及首个外显子区域中，研究人员观察到两个强依赖模块：

一个在编码区，另一个在转录因子CREB的结合位点，该位点突变已知会引发酪氨酸羟化酶缺乏症和肌张力障碍（图4C）。

在HBA1基因中，研究人员也观察到跨外显子的依赖关系。

该基因的内含子极短，能够完整落入模型上下文窗口内。剪接供体与受体区域间的依赖关系尤其显著，与已有研究结果一致。

随后研究人员分析了LDLR启动子，该区域与家族性高胆固醇血症相关，且已通过MPRA等方法广泛研究。

模型可根据碱基依赖图中的块结构准确预测TFBS的位置（图4D），同时还能识别TFBS之间的依赖关系。

最后，研究人员分析了一个被认为受到灵长类特异性进化约束的开放区域。

在该区域的一个潜在TEAD4结合位点附近，GPN-Star（P）模型预测到了最强的依赖信号。

这些结果表明，GPN-Star能够通过协同进化信号学习有意义的碱基依赖结构，且与已知功能依赖一致。

这相较于传统的保守性评分方法（如PhyloP和PhastCons）是一次显著的进步。

为了更直接地评估模型预测与基因组中进化约束之间的关联，研究人员利用了gnomAD v3.1.2提供的等位基因频率数据，该版本汇总了来自76,156名个体的全基因组测序样本。

研究人员重点将GPN-Star与PhyloP和PhastCons进行对比，这两种模型同样基于全基因组比对（WGA）数据来学习进化约束。

为了评估模型对等位基因频率与约束关系的捕捉能力，研究人员选取了这三种模型在脊椎动物、哺乳动物和灵长类三个不同进化时间尺度上的版本，对gnomAD v3中第22号染色体的全部变异进行了预测（该染色体未用于GPN-Star模型训练）。

随后，研究人员按照每个模型的评分分位数对变异进行分组，并对各组中的平均等位基因频率进行比较。

如图5A所示，在所有三个时间尺度下，GPN-Star评分最低分位数中的变异平均频率显著低于对应的PhyloP和PhastCons分组，表明GPN-Star更准确地捕捉了人类基因组中的选择性约束。

研究人员进一步进行量化分析，关注模型评分分布中「最具约束力」的尾部区间。如图5B所示，三种GPN-Star模型在稀有变异富集上均明显优于PhyloP、PhastCons和CADD。

在GPN-Star各版本中，基于脊椎动物训练的模型整体表现最佳，甚至超过了同样以脊椎动物数据训练的GPN-MSA。

进一步按分子功能后果对变异进行分层分析后，GPN-Star在所有类别中均取得最高富集度。

其中，GPN-Star（V）在错义变异中表现最优，而GPN-Star（M）则在同义与非编码变异方面领先，这一趋势与先前基准测试中的观察结果一致。

研究人员研究了上下文相关的突变率差异对模型预测的影响，发现控制突变率变异有助于提升变异效应预测的准确性。

由于GPN-Star是在真实基因组序列上训练的，其预测自然同时反映了突变过程和选择过程的综合影响。

研究人员在致病性预测和复杂性状遗传力方面的结果证明了GPN-Star在人类遗传学中的实用性。

将进化数据与功能基因组数据结合，开发更强大的多模态基因语言模型，是未来非常值得探索的方向。

参考资料：

https://www.biorxiv.org/content/10.1101/2025.09.21.677619v1%20

https://x.com/yun_s_song/status/1969994081251266665