编辑 | 绿萝机器进修原子间势（MLIP）因其兼顾高精度和高效率的优势，在材料、化学、生物学等领域的大尺度原子仿照钻研中引起了广泛关注。然而，高机能 MLIP 依赖于大量符号数据，通过重新计算获取这些数据的成本很高。近日，上海人工智能实验室、复旦大学和清华大学的钻研团队，提出了一种 MLIP 的几许进修框架 GPIP，利用未符号的构型来提高 MLIP 的机能。钻研表明，GPIP 只需少量的计算成本即可显著提高 MLIP 的准确性和泛化性，并且与不同的不变或等变图神经网络架构兼容。该格式巩固了 MLIP，并推进了份子

低成本、准确、稳健，各类份子通用，上海人工智能实验室开发MD仿照AI新格式

编辑 | 绿萝

机器进修原子间势（MLIP）因其兼顾高精度和高效率的优势，在材料、化学、生物学等领域的大尺度原子仿照钻研中引起了广泛关注。

然而，高机能 MLIP 依赖于大量符号数据，通过重新计算获取这些数据的成本很高。

近日，上海人工智能实验室、复旦大学和清华大学的钻研团队，提出了一种 MLIP 的几许进修框架 GPIP，利用未符号的构型来提高 MLIP 的机能。

钻研表明，GPIP 只需少量的计算成本即可显著提高 MLIP 的准确性和泛化性，并且与不同的不变或等变图神经网络架构兼容。该格式巩固了 MLIP，并推进了份子零碎的仿照。

相关钻研以「Geometry-enhanced pretraining on interatomic potentials」为题，于 2024 年 4 月 5 日发布在《Nature Machine Intelligence》上。

低成本、准确、稳健，各类份子通用，上海人工智能实验室开发MD仿照AI新格式

论文链接：https://www.nature.com/articles/s42256-024-00818-6

份子动力学 (MD) 在物理、化学、生物和材料科学等诸多领域中提供了原子见解。MD 仿照的准确性和效率取决于原子间势的选择，原子间势是描述份子零碎中原子势能的数学函数。

机器进修原子间势（MLIP）能够借助机器进修模型拟合重新算能量和力，从而准确高效地实现重新算。其中，图神经网络被广泛利用，钻研者还开发了等变神经网络来保持份子零碎的等变性，以提高原子间势预计的机能。

尽管 MLIP 已被广泛钻研，但由于重新算的成本高昂，训练数据的缺乏，其机能和可转移性受到限制。

GPIP：机器进修原子间势的几许进修框架

在此，钻研团队提出了一种 MLIP 的几许进修框架：原子间势几许巩固预训练（Geometry-enhanced Pretraining on Interatomic Potentials，GPIP），该框架由几许结构生成和几许巩固预训练两部分组成。

低成本、准确、稳健，各类份子通用，上海人工智能实验室开发MD仿照AI新格式

图示：GPIP 的总体架构。（起源：论文）

钻研职员提出了一个自监督进修（SSL）框架，首先对廉价且易于获取的经典 MD (CMD) 数据进行自监督预训练，然后对重新算 MD (AIMD) 生成的符号数据进行微调以进修任务相关信息。在此框架下，可以以有限的成本轻松生成特定份子零碎的大规模预训练数据集，巩固预训练能力，并避免预训练数据零碎与测试数据零碎之间的域差距。

在此基础上，钻研职员还提出了一种几许巩固的 SSL 格式，该格式涉及三个互补的任务，包括利用噪声坐标恢复屏蔽原子、利用屏蔽原子预计噪声以及利用 3D 网络进行对比进修，以便更好地从 CMD 数据中提取拓扑和 3D 几许信息。

该钻研的主要贡献如下：

（1）提出了一个用于 MLIP 的几许进修框架：GPIP，由两个部分组成：几许结构生成和几许巩固预训练。

（2）钻研证明，CMD 仿照产生的未符号几许结构有利于原子间势预计，且计算成本非常低。

（3）设计了一种针对份子结构数据的几许巩固自监督预训练格式。

（4）钻研职员利用涵盖各种份子零碎的 MLIP 和数据集来评估其格式。该格式在所有实验中都表现出一致的稳健性。

GPIP 的有效性归因于自监督任务能够从具有经验力场的 CMD 仿照生成的数据中有效提取结构信息的能力。尽管不如重新计算格式准确，但 CMD 仿照可以提供物理上合理的原子结构，因为经验力场鉴于物理公式。

低成本、准确、稳健，各类份子通用，上海人工智能实验室开发MD仿照AI新格式

图示：将预训练和微调数据投影到 SchNet-GPIP 模型的嵌入上。（起源：论文）

此外，当从不同温度和压力下的长时间 CMD 仿照中采样时，可以从大空间采样丰富的结构数据，覆盖下游任务中的微调数据集。这种覆盖范围可以通过均匀流形近似和投影降维格式可视化。

涵盖各种份子零碎

为了证明其格式的有效性，钻研职员用 GPIP 预训练 MLIP，并将其应用于各种具有挑战性的基准以进行原子间势预计。

表 1：有机小份子 MD17 数据集的结果。（起源：论文）

低成本、准确、稳健，各类份子通用，上海人工智能实验室开发MD仿照AI新格式

MD17 数据集由 AIMD 仿照生成的有机小份子组成。鉴于 GPIP 的模型与基线模型的力预计平均绝对误差（MAE）比较如表 1 所示。鉴于 GPIP 的 SchNet、DimeNet、SphereNet 和 GemNet-T 的机能均优于相应的基线模型。

低成本、准确、稳健，各类份子通用，上海人工智能实验室开发MD仿照AI新格式

图示：在 ISO17 数据集上的结果。（起源：论文）

ISO17 数据集由 AIMD 仿照生成的 C7O2H10 异构体的 MD 轨迹组成。钻研职员首先利用 ISO17 数据集中的 20,000 个构型的小数据集和 400,000 个构型的大数据集进行微调。结果显示，尽管微调数据集非常大，但鉴于 GPIP 的模型在这两项任务上都显著优于非预训练的模型。

表 2：Water 数据集的结果。（起源：论文）

低成本、准确、稳健，各类份子通用，上海人工智能实验室开发MD仿照AI新格式

由于结构的复杂性，为带有周期性边界条件（PBCs）的扩展零碎训练 MLIP 比单份子零碎更困难。钻研职员将 GPIP 用于含有 PBC 的液态水钻研。鉴于 GPIP 的模型不仅提高了力预计的准确性，而且还提高了 MD 仿照中的其他关键指标。

表 3：电解质数据集的结果。（起源：论文）

低成本、准确、稳健，各类份子通用，上海人工智能实验室开发MD仿照AI新格式

为了更好地评估 MLIP 的机能，还开发了一个电解质溶液数据集，其中包含更多类型的元素和构型。

值得强调的是，与获得训练集准确标签的重新计算相比，GPIP 的计算复杂度可以忽略不计。虽然增加训练数据的数量也可以提高准确性，但由于重新计算，计算成本可能比 GPIP 高数百倍。

总之，钻研职员提出了一种称为 GPIP 的 MLIP 几许进修框架。实验结果表明，鉴于 GPIP 的模型始终显著优于相应的基线模型，表现出显著的有效性和稳健性。

该钻研非常适用于利用 MLIP 进行 MD 仿照，特别是对于难以获得足够训练数据的复杂份子零碎。

注：封面来自网络

{{userData.name}}已认证

低成本、准确、稳健，各类份子通用，上海人工智能实验室开发MD仿照AI新格式

GPIP：机器进修原子间势的几许进修框架

涵盖各种份子零碎

北汽极狐发布达尔文2.0技能体系，引领新能源汽车技能迈向新高度

AI在用 | 想让手机壁纸脱胎换骨?试试Midjourney

MIT计算机科学家意外发现，量子纠缠会「突然消亡」

百度英伟达联合举办！全球规模最大智能体大赛开幕

深度学习还不如浅层网络？RL教父Sutton持续反向传播算法登Nature

比尔・盖茨用 AI 对付蚊子，助力消灭疟疾

我有一个「赛博爱人」，拥有超长记忆，还能给足情绪价值

Karpathy狂赞AI代码神器Cursor，直言回不到3年前无辅助编码了，却被指「带货」

AI 行业风光背后：80% 项目会失败，5 大原因导致

新手必看！5 款 Flux 实用基础工作流（附资源包）