兼具精度与服从,微软鉴于AI的新电子构造盘算框架登Nature子刊

编辑 | ScienceAI编者按:为了使电子构造要领突破当前广泛应用的密度泛函表面(KSDFT)所能求解的份子系统规模,微软研究院科学智能中心的研究员们鉴于人工智能技术和无轨道密度泛函表面(OFDFT)开发了一种新的电子构造盘算框架M-OFDFT。这一框架不仅保持了与KSDFT相当的盘算精度,而且在盘算服从上实现了显著提升,并展现了优异的外推性能,为份子科学研究中诸多盘算要领的基础——电子构造要领开辟了新的思路。相关研究成果已在国际知名学术期刊《自然-盘算科学》(Nature Computational Scie

兼具精度与服从,微软鉴于AI的新电子构造盘算框架登Nature子刊

编辑 | ScienceAI

编者按:为了使电子构造要领突破当前广泛应用的密度泛函表面(KSDFT)所能求解的份子系统规模,微软研究院科学智能中心的研究员们鉴于人工智能技术和无轨道密度泛函表面(OFDFT)开发了一种新的电子构造盘算框架M-OFDFT。这一框架不仅保持了与KSDFT相当的盘算精度,而且在盘算服从上实现了显著提升,并展现了优异的外推性能,为份子科学研究中诸多盘算要领的基础——电子构造要领开辟了新的思路。相关研究成果已在国际知名学术期刊《自然-盘算科学》(Nature Computational Science)上发表。

近几十年来,表面与盘算化学领域取得的一大成就是能够通过盘算手段得到份子系统的物理化学性质。这为药物发现和材料设计等诸多工业界问题带来了全新的研究手段,有望缩短开发流程并降低开发成本。这些盘算要领的基础步骤是使用电子构造要领求解给定份子系统的电子状态,进而得到该系统的各种性质。

然而,各种电子构造要领的求解精度和盘算服从往往无法兼得。当前,取得相对合理的「精度-服从」衡量而被广泛应用的要领是Kohn-Sham形式的密度泛函表面(Kohn-Sham density functional theory, KSDFT)。但KSDFT具有较高的盘算复杂度,不能很好地满足日益增长的求解大规模份子系统的需求。

为此,微软研究院科学智能中心的研究员们提出了一种鉴于深度进修和无轨道密度泛函表面(OFDFT)的电子构造盘算框架M-OFDFT,其不仅显著超越了KSDFT的盘算服从,还能保有其求解精度。这一成果展示了人工智能在提升电子构造盘算中「精度-服从」衡量方面的卓越能力,并将助力加速相关业界问题的研究与开发。

M-OFDFT的相关研究成果以「Ovecoming the Barrier of Orbital-Free Density Functional Theory for Molecular Systems Using Deep Learning」为题,于 2024 年 3 月 11 日发表在国际知名学术期刊《自然-盘算科学》(Nature Computational Science)上。

兼具精度与服从,微软鉴于AI的新电子构造盘算框架登Nature子刊

《Nature Computational Science》文章链接:https://www.nature.com/articles/s43588-024-00605-8

SharedIt 链接:https://rdcu.be/dANtS

论文链接:https://arxiv.org/abs/2309.16578

人工智能给电子构造要领带来新机会

电子构造要领是求解份子系统各种物理化学性质的基础工具。由于多电子系统本身具有一定的求解难度,所以高精度电子构造要领因其较高的盘算代价很难应用到工业界所关注的份子系统中,而可盘算较大份子的要领则会因引入一些类似而损失精度。目前KSDFT因其相对合适的精度与服从衡量得到了广泛应用。

不过,近期人工智能技术的喜人进展也为其他电子构造盘算框架带来了新的机会。为了使电子构造要领突破KSDFT所能求解的份子系统规模,微软研究院的研究员们利用人工智能技术,开发了M-OFDFT,该要领比KSDFT服从更高,同时又能保有其精度。鉴于OFDFT的开发,让M-OFDFT成为了一种比KSDFT表面复杂度更低的电子构造盘算框架,因为它只需优化电子密度函数这一个函数来求解电子状态即可,KSDFT则需要优化与电子数相同的多个函数。

不过,OFDFT面临着一个巨大的挑战——需要电子动能关于密度函数的泛函,但它的形式未知,并且难以构造适用于份子系统的高精度类似。

针对这一难题,M-OFDFT使用一个深度进修模型来类似动能泛函。借助深度进修模型的强大拟合能力,M-OFDFT可实现比鉴于类似物理模型设计的典范动能泛函更高的准确度。对于一个待求解的份子系统构造,M-OFDFT会使用动能泛函模型以及其他可直接盘算的能量项构造出一个电子密度的优化目标,然后通过优化过程求解最优(基态)电子密度(图1),进而可盘算能量、力、电荷分布等份子属性。

兼具精度与服从,微软鉴于AI的新电子构造盘算框架登Nature子刊

图1:对于待求解的份子系统构造,M-OFDFT通过最小化电子能量来求解电子密度(以其向量化系数表示),其中难以类似的动能部分由深度进修模型来类似。

M-OFDFT实现兼具精度与服从的电子构造要领

研究员们对M-OFDFT进行了一系列的实验验证。首先考察的是M-OFDFT在常见小份子系统上的求解精度。

结果显示,M-OFDFT在乙醇份子构象以及QM9数据集的份子上可以达到与KSDFT相当的精度(能量达到化学精度1 kcal/mol)。相较于典范OFDFT要领,精度提高了两个数量级(图2-a)。M-OFDFT解得的电子密度也与KSDFT的结果重合(图2-b),特别是得到了电子壳层构造,而典范OFDFT的结果则有明显偏差。由M-OFDFT解得的乙醇构象空间上的势能面(每个点都是通过密度优化得到的,并不是直接预测)也与KSDFT的结果一致(图2-c)。

兼具精度与服从,微软鉴于AI的新电子构造盘算框架登Nature子刊

图2:M-OFDFT和一些典范OFDFT在份子系统上与KSDFT的比较。

之后,研究员们又验证了M-OFDFT不仅保有KSDFT级别的精度,其更低的表面盘算复杂度还使其在服从上也超越了KSDFT。在实际盘算中M-OFDFT取得了的复杂度(图3),比KSDFT 的实际复杂度低了一阶,且其所需绝对时间也明显少于KSDFT。在两个更大的蛋白质系统上(包含2676和2750个电子),M-OFDFT实现了25.6倍和27.4倍的加速。

兼具精度与服从,微软鉴于AI的新电子构造盘算框架登Nature子刊

图3:M-OFDFT和KSDFT的实际盘算时间及复杂度。

M-OFDFT具有更强的泛化能力

深度进修模型在科学任务中的应用面临一大挑战是,在具有与训练数据不同特点的数据上的泛化问题。但采用了OFDFT框架后,动能泛函模型遇到的泛化问题就会减轻,从而使 M-OFDFT可以在比训练集份子规模更大的系统上展现出良好的外推能力。

实验结果表明,M-OFDFT的能量预测误差显著低于鉴于深度进修的端到端能量预测模型(图4-a)。此外,研究员们还利用在多肽片段上训练的M-OFDFT模型求解完整蛋白构造,并取得了超越端到端模型和典范OFDFT的泛化性能(图4-c)。不仅如此,相较端到端模型,M-OFDFT还可以用更少的大份子系统训练数据取得更好的泛化表现(图4-b与图4-d)。

兼具精度与服从,微软鉴于AI的新电子构造盘算框架登Nature子刊

图4:M-OFDFT和其他深度进修要领的泛化性能比较。

M-OFDFT的工作原理

「神龙见首又见尾」:高效捕获非局域效应的动能泛函模型

动能密度泛函具有明显的非局域效应,而用典范的鉴于格点(grid)的方式表征电子密度则会带来高昂的非局域盘算代价。为此,M-OFDFT将电子密度在一组原子基组函数上展开,并使用展开系数作为电子密度表征。由于基函数叠加的形状与电子分布接近,所以其数量可远小于格点数,使得非局域盘算代价大大降低,并有助于刻画电子密度中的壳层构造。

M-OFDFT将每个原子上的电子密度系数和类型与坐标作为节点特征,并鉴于Graphormer模型 [1]预测电子动能(图5),其自注意力机制显式刻画了荷载在每两个原子上的电子密度特征之间的相互作用,从而可捕捉非局域性质。此外,为了保证动能的旋转不变性,M-OFDFT使用了以各个原子为中心、鉴于其相邻原子的局部坐标系,将电子密度系数转换为旋转不变的特征。

兼具精度与服从,微软鉴于AI的新电子构造盘算框架登Nature子刊

图5:鉴于非局域图神经网络的动能密度泛函模型。

「横看成岭侧成峰,远近高低各不同」:高效进修电子能量曲面的训练策略

与传统机器进修任务不同,动能泛函模型是被当作其输入变量的优化目标使用的,而非用于在一些单点上做预测,这对模型的进修提出了更高的要求:模型必须捕捉到每个份子构造上电子能量曲面的轮廓。

为此,研究员们深入分析了用来生成数据的电子构造要领,发现它其实可以为每个份子构造生成多个数据点,而且还能提供梯度标注,从而让模型可以拥有更丰富的曲面轮廓特征。然而梯度的巨大范围也使神经网络难以优化。对此,研究员们还提出了一系列增强模块,让模型能够更容易地表达巨大的梯度。

开启未来电子构造要领的新篇章

M-OFDFT成功突破了无轨道密度泛函框架在份子系统中的瓶颈,将其求解精度提升到了常用的KSDFT的水平,同时保有了其更低的盘算代价,推进了电子构造要领在「精度-服从」方面的衡量,为份子科学研究提供了一种更有潜力的研究工具。

尽管M-OFDFT已经在某些份子系统上展现了出色的泛化性能,但在更大的份子系统上实现长时间且稳定的高精度模拟仍是一个巨大的挑战。微软研究院期待M-OFDFT可以沿着这一方向激发更多研究与创新,并在未来和其他要领一起为电子构造盘算带来更多突破性的成果和影响。

相关文章:

[1] Do Transformers really perform badly for graph representation? Advances in Neural Information Processing Systems 34 (NeurIPS 2021).(https://proceedings.neurips.cc/paper/2021/hash/f1c1592588411002af340cbaedd6fc33-Abstract.html) 

注:封面来自网络。

给TA打赏
共{{data.count}}人
人已打赏
理论

猜测所有生物份子,David Baker 团队蛋白质设计新工具 RoseTTAFold All-Atom 登 Science

2024-3-8 18:31:00

理论

Nature子刊综述:储层估计未来的新机遇和挑拨,华为联合复旦等发布

2024-3-12 17:55:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索