编辑 | 绿萝
机器进修原子间势(MLIP)因其兼顾高精度和高效率的优势,在材料、化学、生物学等领域的大尺度原子仿照钻研中引起了广泛关注。
然而,高机能 MLIP 依赖于大量符号数据,通过重新计算获取这些数据的成本很高。
近日,上海人工智能实验室、复旦大学和清华大学的钻研团队,提出了一种 MLIP 的几许进修框架 GPIP,利用未符号的构型来提高 MLIP 的机能。
钻研表明,GPIP 只需少量的计算成本即可显著提高 MLIP 的准确性和泛化性,并且与不同的不变或等变图神经网络架构兼容。该格式巩固了 MLIP,并推进了份子零碎的仿照。
相关钻研以「Geometry-enhanced pretraining on interatomic potentials」为题,于 2024 年 4 月 5 日发布在《Nature Machine Intelligence》上。
论文链接:https://www.nature.com/articles/s42256-024-00818-6
份子动力学 (MD) 在物理、化学、生物和材料科学等诸多领域中提供了原子见解。MD 仿照的准确性和效率取决于原子间势的选择,原子间势是描述份子零碎中原子势能的数学函数。
机器进修原子间势(MLIP)能够借助机器进修模型拟合重新算能量和力,从而准确高效地实现重新算。其中,图神经网络被广泛利用,钻研者还开发了等变神经网络来保持份子零碎的等变性,以提高原子间势预计的机能。
尽管 MLIP 已被广泛钻研,但由于重新算的成本高昂,训练数据的缺乏,其机能和可转移性受到限制。
GPIP:机器进修原子间势的几许进修框架
在此,钻研团队提出了一种 MLIP 的几许进修框架:原子间势几许巩固预训练(Geometry-enhanced Pretraining on Interatomic Potentials,GPIP) ,该框架由几许结构生成和几许巩固预训练两部分组成。
图示:GPIP 的总体架构。(起源:论文)
钻研职员提出了一个自监督进修(SSL)框架,首先对廉价且易于获取的经典 MD (CMD) 数据进行自监督预训练,然后对重新算 MD (AIMD) 生成的符号数据进行微调以进修任务相关信息。在此框架下,可以以有限的成本轻松生成特定份子零碎的大规模预训练数据集,巩固预训练能力,并避免预训练数据零碎与测试数据零碎之间的域差距。
在此基础上,钻研职员还提出了一种几许巩固的 SSL 格式,该格式涉及三个互补的任务,包括利用噪声坐标恢复屏蔽原子、利用屏蔽原子预计噪声以及利用 3D 网络进行对比进修,以便更好地从 CMD 数据中提取拓扑和 3D 几许信息。
该钻研的主要贡献如下:
(1)提出了一个用于 MLIP 的几许进修框架:GPIP,由两个部分组成:几许结构生成和几许巩固预训练。
(2)钻研证明,CMD 仿照产生的未符号几许结构有利于原子间势预计,且计算成本非常低。
(3)设计了一种针对份子结构数据的几许巩固自监督预训练格式。
(4)钻研职员利用涵盖各种份子零碎的 MLIP 和数据集来评估其格式。该格式在所有实验中都表现出一致的稳健性。
GPIP 的有效性归因于自监督任务能够从具有经验力场的 CMD 仿照生成的数据中有效提取结构信息的能力。尽管不如重新计算格式准确,但 CMD 仿照可以提供物理上合理的原子结构,因为经验力场鉴于物理公式。
图示:将预训练和微调数据投影到 SchNet-GPIP 模型的嵌入上。(起源:论文)
此外,当从不同温度和压力下的长时间 CMD 仿照中采样时,可以从大空间采样丰富的结构数据,覆盖下游任务中的微调数据集。这种覆盖范围可以通过均匀流形近似和投影降维格式可视化。
涵盖各种份子零碎
为了证明其格式的有效性,钻研职员用 GPIP 预训练 MLIP,并将其应用于各种具有挑战性的基准以进行原子间势预计。
表 1:有机小份子 MD17 数据集的结果。(起源:论文)
MD17 数据集由 AIMD 仿照生成的有机小份子组成。鉴于 GPIP 的模型与基线模型的力预计平均绝对误差(MAE)比较如表 1 所示。鉴于 GPIP 的 SchNet、DimeNet、SphereNet 和 GemNet-T 的机能均优于相应的基线模型 。
图示:在 ISO17 数据集上的结果。(起源:论文)
ISO17 数据集由 AIMD 仿照生成的 C7O2H10 异构体的 MD 轨迹组成。钻研职员首先利用 ISO17 数据集中的 20,000 个构型的小数据集和 400,000 个构型的大数据集进行微调。结果显示,尽管微调数据集非常大,但鉴于 GPIP 的模型在这两项任务上都显著优于非预训练的模型。
表 2:Water 数据集的结果。(起源:论文)
由于结构的复杂性,为带有周期性边界条件(PBCs)的扩展零碎训练 MLIP 比单份子零碎更困难。钻研职员将 GPIP 用于含有 PBC 的液态水钻研。鉴于 GPIP 的模型不仅提高了力预计的准确性,而且还提高了 MD 仿照中的其他关键指标。
表 3:电解质数据集的结果。(起源:论文)
为了更好地评估 MLIP 的机能,还开发了一个电解质溶液数据集,其中包含更多类型的元素和构型。
值得强调的是,与获得训练集准确标签的重新计算相比,GPIP 的计算复杂度可以忽略不计。虽然增加训练数据的数量也可以提高准确性,但由于重新计算,计算成本可能比 GPIP 高数百倍。
总之,钻研职员提出了一种称为 GPIP 的 MLIP 几许进修框架。实验结果表明,鉴于 GPIP 的模型始终显著优于相应的基线模型,表现出显著的有效性和稳健性。
该钻研非常适用于利用 MLIP 进行 MD 仿照,特别是对于难以获得足够训练数据的复杂份子零碎。
注:封面来自网络