一篇新论文揭示,生成式 AI 模型已能设计出具备活性的噬菌体。
作者:NIKO MCCARTY
日期:2025年9月17日

数月前,Arc 研究所发布了一款名为 Evo 2 的新语言模型,它能够设计完整的基因组。
但在那篇首发论文中,模型的成果,如一个酵母染色体和几个小型细菌基因组,完全停留在计算机的虚拟世界里,并未在实验室中被真实地组装或测试。
尽管 AI 在设计蛋白质,甚至是高动态的酶方面表现卓越,但此前几乎没有证据表明,它能设计出有活性的基因组。
蛋白质是独立的实体,由单链氨基酸构成。而基因组,即便是最简单的,也由多个基因和调控元件构成,它们必须精密协作,才能构建一个有生命的活体。
基因组中往往一个微小的突变,就足以让其彻底失效。
而今天,Arc 研究所和斯坦福大学的研究人员,终于在真实世界中验证了他们的设想,报告了全球首批由生成式 AI 创造的有活性基因组。
他们使用 Evo 1 和 Evo 2 的微调版本,以一种感染大肠杆菌的病毒 ΦX174 为蓝本,创造了 16 种噬菌体。
其中一些 AI 噬菌体,其感染能力与野生型 ΦX174 相当,甚至更强。这项工作使用的所有模型,都已在 HuggingFace 上免费开放。
作者们写道,这项研究为设计多样化的合成噬菌体提供了蓝图,更深远地说,它为在基因组尺度上,通过生成式设计来创造有用的生命系统奠定了基石。
为何选择这种噬菌体?
在已知的 13,000 种噬菌体中,ΦX174 是被研究得最透彻的一种。它于 1935 年在巴黎的下水道中首次被发现。
它的基因组仅由 5,000 个单链 DNA 碱基组成,却巧妙地容纳了 11 个基因和至少 7 个调控元件。
如此紧凑的秘诀在于基因的物理重叠,有些基因甚至完全嵌套在其他基因的内部。
ΦX174 是一种理想的模式生物,因为它易于操作。它感染的宿主是一种无害的大肠杆菌,而这种细菌在实验室的营养液中能快速繁殖。
其自身结构也极其简单,基本上只有一个蛋白质外壳,包裹着小小的基因组。
ΦX174 衣壳的外部镶嵌着一些蛋白质,正是这些蛋白质负责附着到大肠杆菌的细胞上。
一旦结合,噬菌体便会将其 DNA 注入宿主体内。被感染的细菌会利用自身的机制,开始疯狂复制噬菌体的 DNA。
当细胞内产生数百个噬菌体副本后,它们会完成组装,冲破并杀死宿主细胞。这些新生的噬菌体随即散播开来,去寻找下一个可以感染的大肠杆菌。
ΦX174 在历史上也举足轻重。它是第一个被完整测序,也是第一个被化学合成与组装的 DNA 基因组。
2003 年,J. 克雷格·文特尔和同事们开创性地通过重叠短 DNA 片段来构建长序列,仅用 14 天就组装出 ΦX174 的完整基因组。
他们证明了,只需将合成的 DNA 推入大肠杆菌,就能成功启动它,制造出具有感染力的病毒颗粒。
2012 年,斯坦福大学的科学家们对 ΦX174 的基因组进行了解压缩,将其所有重叠的基因分离开来,重新合成 DNA 后,发现它依然能产生具感染性的噬菌体。
这是基因组设计领域最早的里程碑之一,证明了对天然模板进行大幅改造后,仍可保留其核心功能。
因此,这篇新论文的突破之处不在于首次构建了合成基因组,而在于它首次借助 AI 的力量,让我们能够打破常规,创造出人类理性所无法设计的有活性基因组。
其中一些 AI 噬菌体的基因组与任何已知噬菌体都相去甚远,甚至足以被归类为一个全新的物种。

如何设计基因组?
Evo 2 是一个基因组语言模型,能够阅读并理解来自地球所有生命形式的基因序列。
它的训练数据量极为庞大,包含了来自 128,000 种不同生物的 9.3 万亿个核苷酸。它的输入输出,就是 DNA 字符串。
为了设计新的噬菌体,研究人员向模型提供了一段 ΦX174 基因组的固定片段作为提示,这段序列在所有自然变体中都高度保守。
然后,他们指示模型基于这个种子序列,去填补剩余的部分,从而生成完整的合成基因组。
尽管 Evo 2 学习了数百万个噬菌体基因组,但原始模型并不能直接设计出有活性的噬菌体。
在我们之前对 Evo 2 的报道中就曾提到,它设计的细菌基因组缺少一些关键元件,如果真实合成出来,很可能无法工作。
好在,噬菌体基因组比细菌基因组简单得多。所以研究人员的第一步,是测试 Evo 模型能否生成任何看起来像噬菌体的东西。

他们让模型生成了大量候选序列,并使用一个名为 geNomad 的工具来识别其中的病毒 DNA。
结果发现,基础模型的表现并不稳定,只有少数序列被识别为病毒,而且完全无法保证其功能。
为了提升成功率,研究人员在一个包含了近 15,000 个与 ΦX174 同属的微小噬菌体科的基因组数据集上,对 Evo 模型进行了微调。
他们还加入了一些简单的计算规则来过滤掉明显不可行的设计,比如长度必须在 4,000 到 6,000 个碱基之间,且必须编码所有必需的基因。
经过数千次的生成和筛选,他们最终锁定了 302 个独特的候选基因组。
这些候选者包含了数百种独特的基因突变,有的增加了一个基因,有的基因序列则被打乱。
有趣的是,一个与野生型 ΦX174 有 99% 相似度的基因组,反而完全没有活性。
接下来,团队在实验室中尝试构建这 302 个 AI 设计。其中有 285 个成功被化学合成与组装,并被导入大肠杆菌体内。
如果设计成功,噬菌体就会在细菌体内完成复制和组装,最终杀死细菌,在培养皿上形成可见的噬菌斑。
最终,共有 16 个 AI 设计的基因组成功“启动”,形成了有活性的噬菌体。
在一项竞争实验中,这 16 个 AI 噬菌体与野生型 ΦX174 在同一个试管中争夺大肠杆菌宿主。
结果,几个 AI 噬菌体持续表现优于野生型,其中一个名为 Evo-Φ69 的变体,其数量最终增长了 65 倍。
这证明,AI 设计的噬菌体不仅有活性,在很多情况下,它们的感染能力甚至更强——尽管它们携带了人类设计师不太可能构想出的重大基因组变异。

用于基准测试 AI 设计噬菌体的实验方案示意图。来源:Arc Institute
以 Evo-Φ36 为例,它的一个基因 J 被替换为来自远亲噬菌体 G4 的同名基因。
G4 的 J 蛋白要短得多,过去的实验表明这种替换会使噬菌体失效。
然而,AI 模型却通过重构基因组的其他部分,巧妙地解决了这个兼容性问题,最终创造出一个功能完备的病毒。
这种洞察上下文依赖关系并进行系统性优化的能力,正是人类设计师难以企及,而 AI 模型却能自然涌现的。
规模化的基因组设计
合成生物学的核心理念,是通过拼接特性明确的 DNA 片段,在细胞中构建出新的功能。
这个理念在构建拨动开关、振荡器等简单系统时非常成功,但很难扩展到更复杂的生命系统。
细胞并非模块化的机器,而是充满了层层叠叠的反馈回路和难以预测的涌现特性。我们几乎不可能通过暴力破解的方式,去设计一个全新的生物。
这或许就是这篇新论文如此激动人心的原因。它展示了一条新路径:不再是零敲碎打地修补,而是利用数据和合成技术,更高效地探索广阔的生物设计空间。
更重要的是,我们可以用这种方法,创造出与自然界截然不同的、功能正常的生命体。
论文中提到,有几个 AI 噬菌体的基因组与任何已知噬菌体的相似度都低于 95%。从进化的角度看,这已然构成了一个新物种。

当然,这项技术也可能引发生物安全领域的担忧。
尽管作者强调 Evo 2 的训练数据排除了人类病毒,但模型本身是完全开源的。原则上,有动机的人可以利用它来设计针对人类的病毒。
不过,从设计噬菌体到设计更复杂的生物,真正的瓶颈在于数据和物质。
即使是简单的大肠杆菌,其基因组也比 ΦX174 大三个数量级。设计这样的生物,需要更庞大的高质量数据集和计算资源。
更大的挑战在于 DNA 的合成与组装。构建数百个噬菌体基因组的成本尚可接受,但构建数百个细菌基因组,足以让大多数生物技术公司破产。
换言之,用 AI 创造合成基因组,无论在设计还是构建阶段,都极为昂贵。
几年前,剑桥大学的杰森·琴团队花费了数年时间和上百万美元,才化学合成了一个拥有四百万碱基的大肠杆菌基因组。
同时,我们也应思考,这种从零开始的全基因组设计,是否总是最有效的方法。
在许多生物工程应用中,决定关键性状的往往只是少数几个基因。或许,利用 AI 去精准设计这些关键基因或调控元件,才是更高效的策略。

弗雷德·桑格(左)和他的凝胶,用于测序 DNA。凝胶中的每条带对应一个特定大小的 DNA 片段。由于小 DNA 片段在凝胶中迁移得最远,因此可以通过“累计”每列中的带来确定完整的 DNA 序列。来源:JMB(1975)。
最后,尽管 AI 设计的噬菌体携带了大量新突变,但它们的生物学功能并未改变——它们仍然感染大肠杆菌。
合成生物学的终极目标是创造新功能。因此,下一步的关键,是建立一个训练反馈回路,引导 AI 模型去创造具有特定、预设行为的噬菌体。
我相信这一天会很快到来。1977 年,桑格首次测定了 ΦX174 的 5,375 个碱基,这在当时已是测序能力的极限。
悉达多·穆克吉在他的著作《基因传》中写道,要从这个数字跨越到人类基因组的 30 亿碱基,规模需要扩大近 60 万倍。
然而,在不到 25 年的时间里,人类就做到了。
从这个角度看,历史仿佛正在重演。正如 ΦX174 的测序开启了现代基因组学时代,这些 AI 设计的噬菌体,或许也标志着基因组设计这个新领域的开端。
历史已经证明,从 5,000 到 30 亿的飞跃,也许并非我们想象中那般遥不可及。
参考资料:https://press.asimov.com/articles/ai-phages
https://www.biorxiv.org/content/10.1101/2025.02.18.638918v1
https://github.com/ArcInstitute/evo2
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!