将 ScienceAI 设为星标
第一时间掌握
新鲜的 AI for Science 资讯

作者 | 论文团队
编辑 | ScienceAI
化学反应预测和逆合成设计是药物研发中的核心步骤。近年来,虽然大型语言模型(LLMs)在各领域表现优异,但直接应用到化学合成任务时仍存在两大挑战:数据量稀缺和反应预测与逆合成任务建模割裂。
为了应对数据稀缺问题,湘潭大学林轩副教授课题组联合湖南大学曾湘祥教授、湖南师范大学曾道建教授课题组针对化学反应和逆合成预测,提出了一个新的大模型框架 ——ChemDual。它通过两个创新点突破了当前的瓶颈:
(1) 构建了一个包含 440 万条指令的大规模化学合成数据集;
(2) 引入对偶学习(Dual-task Learning),同时优化分子碎片化与重组、反应与逆合成的双向推理。
研究论文以《Enhancing Chemical Reaction and Retrosynthesis Prediction with Large Language Model and Dual-task Learning》为题被 IJCAI 2025 接收。

论文地址:https://arxiv.org/abs/2505.02639
开源地址:https://github.com/JacklinGroup/ChemDual
研究团队提出将分子碎片组合和断裂的过程,并基于 BRICS 规则自动生成了 440 万条合成指令,大幅降低了数据获取成本,同时保证了合成相关性。碎片与反应物具有高达 66.5% 的平均相似度(图 1a),为学习反应与逆合成提供了可靠数据支持。
为了应对反应预测与逆合成任务建模割裂问题,研究团队提出 Dual-task Learning,在预训练阶段,模型同时学习分子到碎片(断裂)和碎片到分子(重组)任务;在微调阶段,则学习目标分子到反应物(逆合成)和反应物到产物(反应预测)任务。实验表明(图 1c),这种对偶训练可以在反应预测上带来 6.3% 的精度提升。

图 1:(a)分子碎片与反应物相似性的示例与整体分布。(b)单任务学习与 ChemDual 对偶学习的对比。(c)是否使用对偶学习下的反应预测准确率比较。
算法流程及模型结构
为了有效提升化学反应和逆合成预测的性能,研究团队设计了一个完整的大型语言模型优化流程 ——ChemDual,主要包括三大模块:指令数据构建、多尺度分词器、多任务学习策略,如图 2 所示。

图 2:ChemDual 框架图
首先,在数据构建模块中,研究团队基于 ChEMBL-34 数据库收集了 2000 万个分子 SMILES 序列,通过去重、无效分子剔除、分子量过滤等预处理步骤,获得了 220 万个高质量、高活性分子。随后,采用 BRICS 规则对分子进行断裂,生成了 440 万组分子及其对应的碎片组合,形成了用于模型预训练和微调的化学合成指令数据集。
其次,在输入编码模块,研究团队设计了基于 LLaMA 扩展的多尺度分词器(Multi-scale Tokenizer),使得 ChemDual 能够在不同粒度层次上同时理解化学结构特征,显著提升了模型对反应机制的建模能力。
最后,在学习策略模块,研究团队提出了对偶学习(Dual-task Learning)框架,贯穿预训练和指令微调两个阶段:
在预训练阶段,以分子 - 片段的双向变换(分子→片段,片段→分子)为任务,帮助模型建立分子内部结构的双向推理能力。
在微调阶段,以反应预测 - 逆合成的双向变换(反应物→产物,产物→反应物)为任务,进一步适配化学合成推理。
特别地,ChemDual 不仅在传统单任务模型(如 Retroformer)上实现了全面超越,还在指令数据规模、分子结构感知、多任务协同学习等方面形成了完整而系统的技术闭环,为后续大模型在化学合成领域的应用奠定了坚实基础。
实验结果与性能提升
为了验证 ChemDual 的有效性,文章在两个公开数据集上进行了系统评测:Mol-Instruction 和 USPTO-50K。

图 3:Mol-Instruciton 数据集实验对比结果
在 Mol-Instruction 数据集上(图 3),ChemDual 在化学反应预测任务中取得了当前最优的 EXACT Match 分数 0.869,BLEU 得分达到 0.991,Levenshtein 编辑距离降至 2.099,显著优于 BioT5 + 和 Mol-Instruction 等先进模型。同时,在基于分子指纹(RDK, MACCS, Morgan)的相似度指标上,ChemDual 分别达到 0.964、0.980 和 0.956,证明了生成分子在化学结构上的高一致性。

图 4:USPTO-50K 数据集实验对比结果
在 USPTO-50K 数据集上(图 4),ChemDual 在逆合成任务的 Top-1 准确率上达到 49.95%,相较经典方法 Retroformer 提升了 2.06%。Top-3、Top-5 和 Top-10 准确率分别提升了 4.79%、3.93% 和 7.63%,充分验证了 ChemDual 在逆合成推理上的鲁棒性与可迁移性。
为了深入分析各模块贡献,作者进行了消融实验(图 5),比较了:
不使用预训练(w/o pre)
不使用对偶学习(w/o dual)
结果显示,ChemDual 在完整配置下在所有指标上均取得最高分,特别是在引入预训练和对偶学习后,模型的准确率和分子结构一致性有大幅提升,进一步佐证了对偶学习的重要性。

图 5:消融实验结果
分子重组与分子对接分析
为了进一步验证 ChemDual 在实际分子设计场景下的应用潜力,研究团队基于 CHEMBL419018 化合物进行了分子重组与分子对接实验。实验结果表明:ChemDual 生成的分子不仅在分子指纹上保持了与原分子的高度相似性(>85%),而且在对接得分上表现优异。
如图 6 所示,在最高得分(-8.3 kcal/mol)的对接复合物中,配体形成了三处关键氢键,显著增强了配体 - 蛋白的结合稳定性。这一结果不仅验证了 ChemDual 在分子生成中能兼顾化学有效性与结构多样性,也展示了其在新药设计领域的实际应用潜力。

图 6:ChemDual 生成的 Top1 分子与蛋白质对接复合物示意
影响、局限与展望
ChemDual 展示了将大型语言模型应用于化学合成领域的新范式。通过解决数据瓶颈和反应预测 - 逆合成任务建模割裂问题,该研究向「通用化学智能体」迈出了关键一步。未来,作者期待进一步扩展到考虑反应条件、合成可行性、环境影响等多因素优化问题,使得 AI 在合成规划领域真正走向实际应用。
人工智能 × [ 生物 神经科学 数学 物理 化学 材料 ]
「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展。
欢迎关注标星,并点击右下角点赞和在看。
点击阅读原文,加入专业从业者社区,以获得更多交流合作机会及服务。