OpenAI重大发现：GPT-4b micro改造诺奖研究，山中因子重编程效率提高50倍

机器之心报道

机器之心编辑部

AI 加速科学和药物研发，已经不是什么新鲜事，但它的潜力远未被完全释放。

就在刚刚过去的一天，OpenAI 宣布他们与生物科技初创公司 Retro Bio 合作，研发的新模型 GPT-4b micro，设计出了新型且显著增强的山中因子变体。

山中因子是一组蛋白质，由诺奖得主、日本科学家山中伸弥在 2006 年提出，其包括 Oct4、Sox2、Klf4 和 c - Myc4 种因子，又称 OSKM。当它们被添加到人类皮肤细胞中时，会使其转变为看似年轻的干细胞，这种干细胞可以分化成体内任何其他组织。Retro 认为，这一现象可能是实现构建人体器官或提供替代细胞的起点。

然而，山中因子也存在一个重大局限：重编程效率极低，它需要数周时间，而且在实验室培养皿中，只有不到 1% 的细胞能够完成再生之旅。这意味着在实际应用中，只有极少数细胞能够成功被重编程，这大大限制了其在临床和科研上的推广与应用价值。

OpenAI 与 Retro Bio 团队借助 GPT-4b micro，一起设计出山中因子新变体，与标准 OSKM 蛋白相比，这些因子在体外的重编程效率提高了 50 倍，这是一项突破性的改进。

其实，OpenAI 与 Retro Bio 的合作始于一年前，此前， Sam Altman 个人向 Retro 注资 1.8 亿美元。

对于这一发现，Sam Altman、Greg Brockman 纷纷进行了转发并评论：

不过遗憾的是，这个模型并没公开：

OpenAI 表示，GPT-4b micro 与 GPT-4o 具有相同的架构，但使用了一种新的训练方法和自定义生物学数据集，目的是使科学家能够根据自己的需求重新设计蛋白质。

山中因子 KLF4（左）和 SOX2（右）的 3D 结构可视化。

模型在推理过程中能够处理上下文长度达 64000 个 token ，尽管这种规模在文本大语言模型中已较为常见，但在蛋白质序列模型中尚属首次。

另外，值得一提的是，在开发过程中，研究者观察到 GPT-4b micro 出现了与语言模型类似的 scaling laws，在更大的数据集上训练的模型在困惑度和下游蛋白质基准方面取得了可预测的提升。然而，蛋白质 AI 模型的计算机模拟评估通常价值有限，因为尚不清楚此类改进是否能转化为现实世界中效用的提升。

用 AI 辅助对 SOX2 和 KLF4 重新设计

显著提升干细胞重编程效率

OpenAI 展示了是如何借助 GPT-4b micro 来提升 SOX2 和 KLF4 重编程效率的。

众所周知，直接对蛋白质序列进行优化非常困难，因为 SOX2 含有 317 个氨基酸、KLF4 含有 513 个氨基酸，可能产生的变体数量几乎达到 10^1000，所以传统的「定向进化」筛选技术每次仅能对少量残基进行突变，所能探索的设计空间可谓是微不足道。

几年前的一项权威学术研究成果《通过细胞选择和测序实现重编程因子的定向进化》测试了数千种 SOX2 突变体，只发现少数具有适度增益的三重突变体，而 15 年来对嵌合 SOX⁠蛋白的不懈研究所获得的变体，与天然 SOX 仅有 5 个残基的差异。

为此，Retro 团队使用人类成纤维细胞（皮肤和结缔组织）搭建了一个湿实验室筛选平台，在初步筛选阶段，使用 Retro 科学家手动设计的 OSKM 和 SOX2 变体作为基线对其进行验证，如图 3 所示。

然后，研究者要求 GPT-4b micro 提出一组多样化的「RetroSOX」序列。结果发现，尽管模型提出的序列平均与野生型 SOX2（wild‑type SOX2）之间相差超过 100 个氨基酸，但在表达关键多能性标记物方面，该模型提出的序列中超过 30% 的序列都要优于野生型 SOX2。而相比之下，传统筛选方法的命中率通常低于 10%。

随后，研究团队对山中因子中最大的 KLF4 进行重新改造。已知 KLF4 可以被其他 KLF 家族因子替代，但不会提高重编程效率。此前，在通过专家指导的单氨基酸替换方案对 KLF4 进行改进尝试时，19 次尝试中仅成功一次。

与对 RetroSOX 的改进方法类似，研究者要求模型生成一组增强型 RetroKLF 变体。结果就是，在模型生成的变体中，有 14 种变体要优于 RetroSOX 筛选中的最佳组合 —— 命中率接近 50%，如图 4 所示。

该研究发现，将表现最优的 RetroSOX 和 RetroKLF 变体组合在一起可获得最显著的成效。而在三次独立实验中，成纤维细胞早期 (SSEA-4) 和晚期 (TRA-1-60、NANOG) 标志物均显著增加，且晚期标志物的出现时间比野生型 OSKM 组合方案提前了几天，如图 5 所示。

此外，在第 10 天通过碱性磷酸酶 (AP) 染色验证时发现，RetroSOX 和 RetroKLF 变体不仅表达晚期多能性标记，还表现出强劲得到 AP 活性，而这是多能性的重要指标，如图 6 所示。

为了进一步证实重编程效率的提升并探索其临床潜力，研究者采用不同的递送方式验证 —— 用 mRNA 替代病毒载体，以及另一种细胞类型 —— 间充质基质细胞 (MSC)，进行验证。（注：这些细胞来自三位年龄超过 50 岁的中年人类捐赠者）

结果发现，仅仅 7 天内，超过 30% 的细胞开始表达关键多能性标志物（SSEA4 和 TRA-1-60），等到第 12 天时，出现了大量形态与典型诱导性多能干细胞（iPSC）相似的细胞集落，如图 7 的左侧和中间所示。这些细胞中有超过 85% 激活了关键干细胞标志物的内源性表达，包括 OCT4、NANOG、SOX2 和 TRA-1-60。

随后，研究者验证了这些 RetroFactor 衍生的 iPSC 能够成功分化为所有三个原始胚层 —— 内胚层、外胚层和中胚层。此外，他们扩增了多个单克隆 iPSC 细胞系，并进行了多次传代，证实了其具有健康的核型（如图 7 的右侧所示），且基因组稳定性适合细胞治疗。

这些结果进一步佐证了工程化变体的稳健性，还为跨不同递送方式和细胞类型增强 iPSC 生成能力提供了实证依据。

根据研究结果综合来看，高命中率、深度序列编辑、加速标记出现和 AP + 菌落形成等证据初步表明：AI 指导的蛋白质设计可以显著加速干细胞重编程研究的研究发展进展。

重组变体增强 DNA 损伤修复

在 DNA 损伤修复试验中，用 RetroSOX/KLF 混合物处理的细胞表现出明显低于用标准 OSKM 或荧光对照重编程的细胞的 γ-H2AX 强度（双链断裂的标志）（图 8）。

这些结果表明，RetroSOX/KLF 混合物比原始的山中因子更有效地减少 DNA 损伤。

未来展望

对 OpenAI 来说，这项工作证明了，在特定领域，专业化模型能够更快地在科学问题上取得突破性进展。

「当研究人员将深厚的领域知识与语言模型工具结合时，以前需要数年才能解决的问题，可能在数天之内就会取得进展。」OpenAI 研究合作负责人 Boris Power 说道。

参考链接：https://openai.com/index/accelerating-life-sciences-research-with-retro-biosciences/

上海 AI Lab 26 届校招正式批开启！全岗位「无限复活甲」助你 offer 到手！

投递 0 限制：简历可多次投递，心仪岗位大胆冲！
100+ 职位，赛道超丰富，细分方向任你选！
顶级科研平台与资源：超大规模算力集群，PB 级数据，亿级研发投入！
清晰的职业发展通道：由实验室出题，为你链接顶尖高校、科研机构和行业企业！

扫描下方二维码即可投递简历。

资讯配图

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com