
编辑丨coisini
今年早些时候,谷歌联合耶鲁大学等证实生物模型与自然语言处理类似,同样遵循扩展定律:模型规模越大,在生物学任务中的表现就越出色。
这引出了一个关键问题:扩大模型规模仅能提升现有任务性能,还是能催生全新能力?谷歌认为:规模化的真正价值在于创造新思路、探索未知领域。
现在,谷歌联合耶鲁大学等正式发布 Cell2Sentence-Scale 27B(C2S-Scale 27B)。这个拥有 270 亿参数的新基础模型基于 Gemma 开源模型构建,旨在解读单个细胞的「语言」,标志着单细胞分析领域迈入新前沿。

论文地址:https://www.biorxiv.org/content/10.1101/2025.04.14.648850v2
模型地址:https://huggingface.co/vandijklab/C2S-Scale-Gemma-2-27B
项目地址:https://github.com/vandijklab/cell2sentence
C2S-Scale 针对癌细胞行为提出了创新性假设,研究团队通过活体细胞实验验证了其预测准确性。
谷歌 CEO 桑达尔・皮查伊(Sundar Pichai)发推称赞道:「C2S-Scale 为癌症治疗提供了全新可能路径。」此次发布是人工智能在科学领域的重要里程碑。

C2S-Scale 27B 技术原理
癌症免疫治疗面临的核心难题在于许多肿瘤属于「冷肿瘤」,即无法被人体免疫系统识别。使其转化为「热肿瘤」的关键策略是通过「抗原呈递」过程,迫使肿瘤细胞展示免疫触发信号。
研究团队赋予 C2S-Scale 27B 模型一项特殊任务:寻找能作为条件放大器的药物 —— 仅在特定「免疫环境阳性」条件下(即已存在低水平干扰素但不足以独立诱导抗原呈递的环境)增强免疫信号。
这需要模型具备条件推理能力,而这种能力正是模型规模扩展后涌现的新特性 —— 小规模模型无法解析这种环境依赖效应。

为了实现上述目标,研究团队设计了双环境虚拟筛选方案来捕捉特定协同效应。该虚拟筛选包含两个阶段:
免疫环境阳性:向模型提供具有完整肿瘤 - 免疫相互作用及低水平干扰素信号的真实患者样本;
免疫环境中性:向模型提供无免疫背景的孤立细胞系数据。
研究团队模拟了 4000 多种药物在两种环境下的作用,要求模型预测哪些药物仅在第一种环境中能增强抗原呈递,使筛选更贴近临床相关场景。
值得注意的是,在模型筛选出的候选药物中,部分(10-30%)在既往文献中有所记载,其余则是令人惊讶的新发现 —— 此前与筛查目标并无已知关联。
从预测到实验验证
模型的预测结果非常明确:它发现 CK2 激酶抑制剂 CX-4945 存在显著的「环境分化效应」。模型预测该药物在「免疫环境阳性」条件下能强力增强抗原呈递,而在「免疫环境中性」条件下几乎无效。

这一预测的创新性令人振奋:尽管 CK2 已知参与多种细胞功能(包括免疫调节),但文献从未报道过 CX-4945 通过抑制 CK2 来显著增强 MHC-I 表达或抗原呈递。这表明模型正在生成可验证的新假设,而非简单复述已知事实。
研究团队将假设带入实验室,在人类神经内分泌细胞模型(模型训练时未接触过的细胞类型)中进行测试。实验结果证实:
单独使用 CX-4945 对抗原呈递(MHC-I)无影响
单独使用低剂量干扰素仅产生有限效果
联合使用 CX-4945 与低剂量干扰素可产生显著的协同放大效应
值得注意的是,实验室测试中联合疗法使抗原呈递提升约 50%,这将显著增强肿瘤的免疫系统可见度。
模型的预测在体外实验中多次得到验证。C2S-Scale 成功识别出新型干扰素条件放大器,为「冷」肿瘤转化为「热」肿瘤揭示了潜在新路径,有望提升免疫疗法响应率。尽管这仅是初步突破,但 C2S-Scale 为开发新型联合疗法提供了经实验验证的重要线索。

此项成果同时构建了生物发现的新范式:遵循扩展定律构建如 C2S-Scale 27B 的大型模型,能创建足以运行高通量虚拟筛选的细胞行为预测系统,发现环境条件化生物机制,并生成基于生物学的可靠假设。
感兴趣的读者可以阅读论文原文,了解更多研究内容。
参考内容:
https://x.com/sundarpichai/status/1978507110477332582
https://blog.google/technology/ai/google-gemma-ai-cancer-therapy-discovery/
人工智能 × [ 生物 神经科学 数学 物理 化学 材料 ]