大规模分子电子密度数据集EDBench发布,AI驱动分子建模迈入「电子级」时代

ScienceAI 2025-10-03 12:00

大规模分子电子密度数据集EDBench发布,AI驱动分子建模迈入「电子级」时代图1


大规模分子电子密度数据集EDBench发布,AI驱动分子建模迈入「电子级」时代图2

作者 | 论文团队

编辑 | ScienceAI

在药物设计、新材料开发等领域,精确模拟分子行为至关重要。传统的机器学习力场将分子视为由原子核和化学键构成的骨架,却忽略了真正决定分子性质的灵魂——电子

电子密度,这一量子化学中的核心物理量,描述了电子在空间中的分布概率,从根本上决定了分子的能量、反应活性等所有性质。然而,通过量子化学计算获取电子密度数据成本极高,严重阻碍了该方向的研究。

近日,湖南大学/国家超算长沙中心联合宁波东方理工大学、香港科技大学(广州)AIMS Lab、华东师范大学、中国科学技术大学等团队在国际顶会NeurIPS 2025(神经信息处理系统大会,AI领域顶会)上发布研究成果 ——大规模电子密度泛函数据集EDbench

这个涵盖336 万分子的“电子密度数据库”,首次填补了电子级分子建模的大规模数据空白,让AI预测分子性质的精度和效率实现双重突破,有望加速新药研发、新材料设计等关键领域的进程。

大规模分子电子密度数据集EDBench发布,AI驱动分子建模迈入「电子级」时代图3

论文主页:https://hongxinxiang.github.io/projects/EDBench/

为什么电子密度是分子建模的终极密码

在量子化学中,分子的一切性质都藏在电子分布这是Hohenberg-Kohn 定理的核心结论。打个比方:如果把分子比作智能手机,传统AI分子建模(MLFFs)只关注硬件零件(原子)的排列,却忽略了操作系统(电子)的逻辑;而电子密度(ED)就是操作系统的源代码,能直接解锁分子的底层功能

大规模分子电子密度数据集EDBench发布,AI驱动分子建模迈入「电子级」时代图4

图(a)展示了从原子级到电子级的MLFF范式升级,其中电子密度(ED)是描述电子空间分布的量子力学中的基本物理量,可以提供分子系统更细致的物理表示长期以来,获取ED数据堪称两难

这就导致AI分子建模始终卡在原子级——比如预测药物分子与靶点的结合活性时,传统模型只能通过原子间距间接推断,却看不到电子富集区的真实作用,精度往往差强人意。

EDBench数据集:规模与质量的双重突破

本论文中EDBench的建成正好解决了该领域长期存在的数据荒问题,该数据集的创建并不是“简单攒数据”,而是“精度、规模、实用性”的多重考量。

大规模分子电子密度数据集EDBench发布,AI驱动分子建模迈入「电子级」时代图5

1.规模突破:336 万分子的算力攻坚

从细节角度来看,图(b)展示了数据集构建中的DFT计算流程,该流程是通过自洽场(SCF)迭代来实现的,从宏观角度来看,EDBench基于PCQM4Mv2数据集构建,涵盖3,359,472个类药分子,规模超同类成果:

更重要的是,EDBench输出的是CUBE格式的3D电子密度云图——相当于给每个分子拍了电子CT,能直接看到电子在原子周围的富集程度。

2.精度控制:从泛函到基组的定制化方案

为了让ED数据符合真实量子规律,团队基于图(c)中Jacob’s ladder做了三重优化:

大规模分子电子密度数据集EDBench发布,AI驱动分子建模迈入「电子级」时代图6

3.标注维度:AI 建模的全要素养料

EDBench不止提供ED数据,还同步输出6类能量成分(核排斥能、交换关联能等)、7种轨道能量(HOMO-2 至 LUMO+3)、4类偶极矩(X/Y/Z 分量及模长)。这种多维度标注正是AI突破单任务拟合的关键——例如,模型可通过ED分布轨道能量反应活性的链式学习,实现更本质的性质预测。

三大基准任务:验证AI电子理解能力

为避免数据集只存不用,团队设计了覆盖ED核心应用场景的基准任务,均采用scaffold splitOOD泛化性测试),直击AI建模的真实痛点。

1. 量子性质预测:ED比原子特征强在哪?

4个子任务中,X-3D(点云模型)的表现印证了ED的优势:

2. 跨模态检索:结构-密度双向对齐的突破

ED5-MER 任务中,模型需实现分子结构→EDED→分子结构的双向检索,这对药物虚拟筛选、材料逆设计至关重要。

大规模分子电子密度数据集EDBench发布,AI驱动分子建模迈入「电子级」时代图7

图中清晰展示:EquiformerV2(分子结构编码器)+X-3DED 编码器)的组合表现最优,ED→MS 检索Top-1准确率达 78.71%MS→ED 达 78.36%。这意味着:给一张实验测得的电子云图,AI 能精准匹配对应的分子结构;反之,输入分子结构也能快速生成ED分布,为电子驱动的逆设计奠定基础。

3. ED 生成:1.8 万倍提速的DFT 平替方案

团队提出HGEGNN 异构图模型(将原子与电子作为双类型节点),输入分子结构即可生成ED

生成 ED 的质量反超DFT

上述HGEGNN异构图模型引出了一个颠覆性发现:AI生成ED数据,在下游任务中表现竟优于DFT原始数据。

团队用HGEGNN生成3ED数据(GGG),替换ED5-EC任务中的DFT数据,训练PointVector模型后发现:生成数据的平均MAE209.29降至186.38,相对提升11%。

大规模分子电子密度数据集EDBench发布,AI驱动分子建模迈入「电子级」时代图8

图中蓝色柱DFT数据的模型表现,绿色柱为AI生成数据的表现——这并非说明 AI生成的ED更符合物理真实,而是其更平滑的分布更契合深度学习模型的归纳偏好,减少了DFT计算中的数值噪声,为高效-高精度建模提供了新思路。

参数玄机:阈值与采样点如何影响性能?

ED数据的高维度(百万级采样点)可能导致模型效率低下,团队通过消融实验找到最优参数。

大规模分子电子密度数据集EDBench发布,AI驱动分子建模迈入「电子级」时代图9

左图(a)显示:随着ED阈值ρτ0.05增至0.2PointVectorED5-EC任务的 MAE346.36降至209.29;但ρτ超过0.2后,性能反而下降——因为过高的阈值会过滤掉化学键附近的低密度电子(化学活性区)这提示:ρτ=0.2 信息保留与效率的黄金平衡点。

 AI for Science 的启示:从拟合理解

EDBench 的价值远超一个数据集:它首次证明了电子级表征AI建模中的可行性,为几何深度学习(GDL)开辟了新方向——过去GDL聚焦原子间对称关系,现在可转向电子密度的空间连续性建模。

目前,EDBench的全部数据(含CUBE格式电子云图)、代码及可视化工具已通过哈佛Dataverse开放:

https://dataverse.harvard.edu/dataverse/EDBench

正如团队通讯作者所言:EDBench不是终点,而是让AI看懂电子的起点——当模型能真正理解电子分布,新药研发、新材料设计才有可能从试错走向预测

人工智能 × [ 生物 神经科学 数学 物理 化学 材料 ]

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI 驱动
more
2025年中国汽车驱动电机铁芯行业市场深度调研:相关政策、产业链、销售额及发展趋势
SPJ|CBS:杨广中团队提出集压电振动与原位力传感为一体的显微机器人驱动系统
SEMICON台湾技术论坛报告总结:AI时代半导体材料创新(八)材料驱动微缩化与AGC玻璃基板技术的战略前景
政府采购驱动低空经济崛起,公共安全应用占比超50%成主力战场
研报 | 受QLC产品热度的外溢效应驱动,NAND Flash 4Q25价格上涨5-10%
杜邦、中达电机、金雁工业集团、三纳化学、亿铖达、上海电驱动等企业亮相 2025SMM第五届电机年会暨产业链博览会展品展商爆料!
英特尔以通感智算一体化方案,驱动网络与边缘智能化升级
特斯拉印度首交付,“中国芯”驱动全球战略再下一城
政策资本双轮驱动,低空经济叩开万亿赛道,哪些企业引领创新潮?
AR光波导+先进封装双驱动,12英寸碳化硅静待爆发
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号