将 ScienceAI 设为星标
第一时间掌握
新鲜的 AI for Science 资讯

编辑丨coisini
自 AlphaFold2 问世以来,蛋白质折叠模型取得了突破性进展。但是这些模型,往往是通过将领域专业知识融入架构设计和训练流程而构建的。
鉴于最近几年,生成模型在多个领域取得成功,我们不禁要问:蛋白质折叠模型的特定架构设计是否必要?
为了回答这个问题,来自苹果的研究团队提出首个基于流匹配(flow-matching)的蛋白质折叠模型 ——SimpleFold,该模型仅使用通用 Transformer 层,无需依赖多重序列比对、配对相互作用图、三角更新(triangular updates)或任何等变几何模块,即可将蛋白质序列直接映射至其完整三维原子结构。
正如研究论文题目所述:「蛋白质折叠比你想象的更简单」。

论文地址:https://arxiv.org/pdf/2509.18480v1
大幅简化架构设计
研究团队将蛋白质折叠重新定义为条件生成任务。SimpleFold 突破了当前依赖专用架构的设计范式,采用通用 Transformer 主干网络,并通过流匹配目标进行端到端训练。
SimpleFold 包含三大核心模块:轻量级原子编码器与解码器(采用对称设计,即模块数量和隐藏层维度相同)以及残差主干网络。所有模块均通过标准 Transformer 块实现,并配备根据时间步长自适应调节的层结构。

SimpleFold 采用简化的流匹配训练目标,辅以 LDDT 损失函数进行训练,而非组合多种蛋白质特异性损失项。这一简化使研究团队能够实现模型规模和训练数据量级的同步扩展,最终发布了从 1 亿参数到 30 亿参数的系列模型。
重要的是,研究团队证明:无需显式配对表示、三角更新或 MSA,模型也能实现强大的折叠性能。这显著降低了架构复杂性,并对以往蛋白质折叠模型设计的必要性提出了挑战。

值得注意的是,基于标准 Transformer 模块的简洁架构使 SimpleFold 可通过适配器、LoRA 等微调技术灵活适配特定蛋白质结构数据与折叠外任务。通过蒸馏技术,SimpleFold-3B 模型还能实现更快速的推理与高效部署。
实验评估
研究团队在两个广泛采用的蛋白质结构预测基准上评估 SimpleFold:CAMEO22 和 CASP14,旨在通过严格测试来检验模型的泛化能力、稳健性及原子级精度,实验结果如下表所示。

基于其生成式训练目标,SimpleFold 能够对蛋白质结构分布进行建模。这意味着 SimpleFold 不仅能针对输入氨基酸序列生成单一确定性结构,还可产生不同构象的集合。
为验证此能力,研究团队在 ATLAS 数据集上进行了分子动力学构象集生成性能基准测试。下表展示了 SimpleFold 与基线模型在 ATLAS 数据集上的比较结果,全面衡量了生成构象集的质量,涉及柔性预测、分布精度以及构象集可观测值。

众所周知,生成模型在视觉和语言等领域遵循扩展定律。类似地,研究团队通过实证方法从模型和数据双维度展示了 SimpleFold 的规模扩展规律,为构建强大的生物生成模型提供重要参考。

结果表明,采用更大训练成本的大规模模型能获得更优性能。规模最大的 SimpleFold-3B 模型(训练数据规模近 9M)在标准折叠任务中展现出竞争优势,并在多项生成任务中达到顶尖水平。
而轻量级 SimpleFold-100M 模型具备高效推理特性,尤其适用于计算资源受限的场景,即使在消费级设备上也能执行高效推理。
SimpleFold 代表了一种颠覆性范式,降低了对计算复杂网络模块的依赖,为蛋白质结构预测开辟了一条全新且重要的发展路径。
感兴趣的读者可以阅读论文原文,了解更多研究内容。
人工智能 × [ 生物 神经科学 数学 物理 化学 材料 ]
「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展。
欢迎关注标星,并点击右下角点赞和在看。
点击阅读原文,加入专业从业者社区,以获得更多交流合作机会及服务。