编辑 | 绿萝
机器学习原子间势(MLIP)因其兼顾高精度和高效率的优势,在材料、化学、生物学等领域的大尺度原子模拟研究中引起了广泛关注。
然而,高性能 MLIP 依赖于大量标记数据,通过从头计算获取这些数据的成本很高。
近日,上海人工智能实验室、复旦大学和清华大学的研究团队,提出了一种 MLIP 的几何学习框架 GPIP,利用未标记的构型来提高 MLIP 的性能。
研究表明,GPIP 只需少量的计算成本即可显著提高 MLIP 的准确性和泛化性,并且与不同的不变或等变图神经网络架构兼容。该方法增强了 MLIP,并推进了分子系统的模拟。
相关研究以「Geometry-enhanced pretraining on interatomic potentials」为题,于 2024 年 4 月 5 日发布在《Nature Machine Intelligence》上。
论文链接:https://www.nature.com/articles/s42256-024-00818-6
分子动力学 (MD) 在物理、化学、生物和材料科学等诸多领域中提供了原子见解。MD 模拟的准确性和效率取决于原子间势的选择,原子间势是描述分子系统中原子势能的数学函数。
机器学习原子间势(MLIP)能够借助机器学习模型拟合从头算能量和力,从而准确高效地实现从头算。其中,图神经网络被广泛使用,研究者还开发了等变神经网络来保持分子系统的等变性,以提高原子间势预测的性能。
尽管 MLIP 已被广泛研究,但由于从头算的成本高昂,训练数据的缺乏,其性能和可转移性受到限制。
GPIP:机器学习原子间势的几何学习框架
在此,研究团队提出了一种 MLIP 的几何学习框架:原子间势几何增强预训练(Geometry-enhanced Pretraining on Interatomic Potentials,GPIP) ,该框架由几何结构生成和几何增强预训练两部分组成。
图示:GPIP 的总体架构。(来源:论文)
研究人员提出了一个自监督学习(SSL)框架,首先对廉价且易于获取的经典 MD (CMD) 数据进行自监督预训练,然后对从头算 MD (AIMD) 生成的标记数据进行微调以学习任务相关信息。在此框架下,可以以有限的成本轻松生成特定分子系统的大规模预训练数据集,增强预训练能力,并避免预训练数据系统与测试数据系统之间的域差距。
在此基础上,研究人员还提出了一种几何增强的 SSL 方法,该方法涉及三个互补的任务,包括使用噪声坐标恢复屏蔽原子、使用屏蔽原子预测噪声以及使用 3D 网络进行对比学习,以便更好地从 CMD 数据中提取拓扑和 3D 几何信息。
该研究的主要贡献如下:
(1)提出了一个用于 MLIP 的几何学习框架:GPIP,由两个部分组成:几何结构生成和几何增强预训练。
(2)研究证明,CMD 模拟产生的未标记几何结构有利于原子间势预测,且计算成本非常低。
(3)设计了一种针对分子结构数据的几何增强自监督预训练方法。
(4)研究人员使用涵盖各种分子系统的 MLIP 和数据集来评估其方法。该方法在所有实验中都表现出一致的稳健性。
GPIP 的有效性归因于自监督任务能够从具有经验力场的 CMD 模拟生成的数据中有效提取结构信息的能力。尽管不如从头计算方法准确,但 CMD 模拟可以提供物理上合理的原子结构,因为经验力场基于物理公式。
图示:将预训练和微调数据投影到 SchNet-GPIP 模型的嵌入上。(来源:论文)
此外,当从不同温度和压力下的长时间 CMD 模拟中采样时,可以从大空间采样丰富的结构数据,覆盖下游任务中的微调数据集。这种覆盖范围可以通过均匀流形近似和投影降维方法可视化。
涵盖各种分子系统
为了证明其方法的有效性,研究人员用 GPIP 预训练 MLIP,并将其应用于各种具有挑战性的基准以进行原子间势预测。
表 1:有机小分子 MD17 数据集的结果。(来源:论文)
MD17 数据集由 AIMD 模拟生成的有机小分子组成。基于 GPIP 的模型与基线模型的力预测平均绝对误差(MAE)比较如表 1 所示。基于 GPIP 的 SchNet、DimeNet、SphereNet 和 GemNet-T 的性能均优于相应的基线模型 。
图示:在 ISO17 数据集上的结果。(来源:论文)
ISO17 数据集由 AIMD 模拟生成的 C7O2H10 异构体的 MD 轨迹组成。研究人员首先使用 ISO17 数据集中的 20,000 个构型的小数据集和 400,000 个构型的大数据集进行微调。结果显示,尽管微调数据集非常大,但基于 GPIP 的模型在这两项任务上都显著优于非预训练的模型。
表 2:Water 数据集的结果。(来源:论文)
由于结构的复杂性,为带有周期性边界条件(PBCs)的扩展系统训练 MLIP 比单分子系统更困难。研究人员将 GPIP 用于含有 PBC 的液态水研究。基于 GPIP 的模型不仅提高了力预测的准确性,而且还提高了 MD 模拟中的其他关键指标。
表 3:电解质数据集的结果。(来源:论文)
为了更好地评估 MLIP 的性能,还开发了一个电解质溶液数据集,其中包含更多类型的元素和构型。
值得强调的是,与获得训练集准确标签的从头计算相比,GPIP 的计算复杂度可以忽略不计。虽然增加训练数据的数量也可以提高准确性,但由于从头计算,计算成本可能比 GPIP 高数百倍。
总之,研究人员提出了一种称为 GPIP 的 MLIP 几何学习框架。实验结果表明,基于 GPIP 的模型始终显著优于相应的基线模型,表现出显著的有效性和稳健性。
该研究非常适用于使用 MLIP 进行 MD 模拟,特别是对于难以获得足够训练数据的复杂分子系统。
注:封面来自网络