IJCAI 2025 | 化学不是单向路:ChemDual大模型用拆分与重组,优化化学反应与分子逆合成预测

ScienceAI 2025-08-29 11:57

将 ScienceAI 设为星标

第一时间掌握

新鲜的 AI for Science 资讯

资讯配图


资讯配图

作者 | 论文团队

编辑 | ScienceAI

化学反应预测和逆合成设计是药物研发中的核心步骤。近年来,虽然大型语言模型(LLMs)在各领域表现优异,但直接应用到化学合成任务时仍存在两大挑战:数据量稀缺和反应预测与逆合成任务建模割裂。

为了应对数据稀缺问题,湘潭大学林轩副教授课题组联合湖南大学曾湘祥教授、湖南师范大学曾道建教授课题组针对化学反应和逆合成预测,提出了一个新的大模型框架 ——ChemDual。它通过两个创新点突破了当前的瓶颈:

(1) 构建了一个包含 440 万条指令的大规模化学合成数据集;

(2) 引入对偶学习(Dual-task Learning),同时优化分子碎片化与重组、反应与逆合成的双向推理。

研究论文以《Enhancing Chemical Reaction and Retrosynthesis Prediction with Large Language Model and Dual-task Learning》为题被 IJCAI 2025 接收。

资讯配图

论文地址:https://arxiv.org/abs/2505.02639

开源地址:https://github.com/JacklinGroup/ChemDual

研究团队提出将分子碎片组合和断裂的过程,并基于 BRICS 规则自动生成了 440 万条合成指令,大幅降低了数据获取成本,同时保证了合成相关性。碎片与反应物具有高达 66.5% 的平均相似度(图 1a),为学习反应与逆合成提供了可靠数据支持。

为了应对反应预测与逆合成任务建模割裂问题,研究团队提出 Dual-task Learning,在预训练阶段,模型同时学习分子到碎片(断裂)和碎片到分子(重组)任务;在微调阶段,则学习目标分子到反应物(逆合成)和反应物到产物(反应预测)任务。实验表明(图 1c),这种对偶训练可以在反应预测上带来 6.3% 的精度提升。

资讯配图

图 1:(a)分子碎片与反应物相似性的示例与整体分布。(b)单任务学习与 ChemDual 对偶学习的对比。(c)是否使用对偶学习下的反应预测准确率比较。

算法流程及模型结构

为了有效提升化学反应和逆合成预测的性能,研究团队设计了一个完整的大型语言模型优化流程 ——ChemDual,主要包括三大模块:指令数据构建、多尺度分词器、多任务学习策略,如图 2 所示。

资讯配图

图 2:ChemDual 框架图

首先,在数据构建模块中,研究团队基于 ChEMBL-34 数据库收集了 2000 万个分子 SMILES 序列,通过去重、无效分子剔除、分子量过滤等预处理步骤,获得了 220 万个高质量、高活性分子。随后,采用 BRICS 规则对分子进行断裂,生成了 440 万组分子及其对应的碎片组合,形成了用于模型预训练和微调的化学合成指令数据集。

其次,在输入编码模块,研究团队设计了基于 LLaMA 扩展的多尺度分词器(Multi-scale Tokenizer),使得 ChemDual 能够在不同粒度层次上同时理解化学结构特征,显著提升了模型对反应机制的建模能力。

最后,在学习策略模块,研究团队提出了对偶学习(Dual-task Learning)框架,贯穿预训练和指令微调两个阶段:

特别地,ChemDual 不仅在传统单任务模型(如 Retroformer)上实现了全面超越,还在指令数据规模、分子结构感知、多任务协同学习等方面形成了完整而系统的技术闭环,为后续大模型在化学合成领域的应用奠定了坚实基础。

实验结果与性能提升

为了验证 ChemDual 的有效性,文章在两个公开数据集上进行了系统评测:Mol-Instruction 和 USPTO-50K。

资讯配图

图 3:Mol-Instruciton 数据集实验对比结果

在 Mol-Instruction 数据集上(图 3),ChemDual 在化学反应预测任务中取得了当前最优的 EXACT Match 分数 0.869,BLEU 得分达到 0.991,Levenshtein 编辑距离降至 2.099,显著优于 BioT5 + 和 Mol-Instruction 等先进模型。同时,在基于分子指纹(RDK, MACCS, Morgan)的相似度指标上,ChemDual 分别达到 0.964、0.980 和 0.956,证明了生成分子在化学结构上的高一致性。

资讯配图

图 4:USPTO-50K 数据集实验对比结果

在 USPTO-50K 数据集上(图 4),ChemDual 在逆合成任务的 Top-1 准确率上达到 49.95%,相较经典方法 Retroformer 提升了 2.06%。Top-3、Top-5 和 Top-10 准确率分别提升了 4.79%、3.93% 和 7.63%,充分验证了 ChemDual 在逆合成推理上的鲁棒性与可迁移性。

为了深入分析各模块贡献,作者进行了消融实验(图 5),比较了:

结果显示,ChemDual 在完整配置下在所有指标上均取得最高分,特别是在引入预训练和对偶学习后,模型的准确率和分子结构一致性有大幅提升,进一步佐证了对偶学习的重要性。

资讯配图

图 5:消融实验结果

分子重组与分子对接分析

为了进一步验证 ChemDual 在实际分子设计场景下的应用潜力,研究团队基于 CHEMBL419018 化合物进行了分子重组与分子对接实验。实验结果表明:ChemDual 生成的分子不仅在分子指纹上保持了与原分子的高度相似性(>85%),而且在对接得分上表现优异。

如图 6 所示,在最高得分(-8.3 kcal/mol)的对接复合物中,配体形成了三处关键氢键,显著增强了配体 - 蛋白的结合稳定性。这一结果不仅验证了 ChemDual 在分子生成中能兼顾化学有效性与结构多样性,也展示了其在新药设计领域的实际应用潜力。

资讯配图

图 6:ChemDual 生成的 Top1 分子与蛋白质对接复合物示意

影响、局限与展望

ChemDual 展示了将大型语言模型应用于化学合成领域的新范式。通过解决数据瓶颈和反应预测 - 逆合成任务建模割裂问题,该研究向「通用化学智能体」迈出了关键一步。未来,作者期待进一步扩展到考虑反应条件、合成可行性、环境影响等多因素优化问题,使得 AI 在合成规划领域真正走向实际应用。

人工智能 × [ 生物 神经科学 数学 物理 化学 材料 ]

「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展

欢迎注标星,并点击右下角点赞在看

点击读原文,加入专业从业者社区,以获得更多交流合作机会及服务。

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI
more
IJCAI 2025 | 化学不是单向路:ChemDual大模型用拆分与重组,优化化学反应与分子逆合成预测
一周AI丨多位华人入选AI百人榜;OpenAI杀入语音模型;谷歌正式发布nano-banana;xAI限时免费智能代码生成模型…
AI Agent组团搞事:在你常刷的App里,舆论操纵、电商欺诈正悄然上演
谁说科技不浪漫,这些告白 “AI ”了——
投资359亿!SK集团AI数据中心开工
戴尔AI服务器,利润率收紧
展商直击 | 迈存信息亮相2025世界人工智能大会,AI算力解决方案引关注
【公益案例展】某3C精密电子——智慧厂务能碳系统+暖通AI智控应用
【AI加油站】RPA 流程自动化系列五:《FlowMind》:金融级智能工作流自动生成框架(附PDF下载)
智能座舱+智能底盘:33家AI大模型供应商的技术应用与分布
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号