编辑 | 绿萝机器进修原子间势（MLIP）因其兼顾高精度和高效率的优势，在材料、化学、生物学等领域的大尺度原子仿照钻研中引起了广泛关注。然而，高机能 MLIP 依赖于大量符号数据，通过重新计算获取这些数据的成本很高。近日，上海人工智能实验室、复旦大学和清华大学的钻研团队，提出了一种 MLIP 的几许进修框架 GPIP，利用未符号的构型来提高 MLIP 的机能。钻研表明，GPIP 只需少量的计算成本即可显著提高 MLIP 的准确性和泛化性，并且与不同的不变或等变图神经网络架构兼容。该格式巩固了 MLIP，并推进了份子

低成本、准确、稳健，各类份子通用，上海人工智能实验室开发MD仿照AI新格式

编辑 | 绿萝

机器进修原子间势（MLIP）因其兼顾高精度和高效率的优势，在材料、化学、生物学等领域的大尺度原子仿照钻研中引起了广泛关注。

然而，高机能 MLIP 依赖于大量符号数据，通过重新计算获取这些数据的成本很高。

近日，上海人工智能实验室、复旦大学和清华大学的钻研团队，提出了一种 MLIP 的几许进修框架 GPIP，利用未符号的构型来提高 MLIP 的机能。

钻研表明，GPIP 只需少量的计算成本即可显著提高 MLIP 的准确性和泛化性，并且与不同的不变或等变图神经网络架构兼容。该格式巩固了 MLIP，并推进了份子零碎的仿照。

相关钻研以「Geometry-enhanced pretraining on interatomic potentials」为题，于 2024 年 4 月 5 日发布在《Nature Machine Intelligence》上。

低成本、准确、稳健，各类份子通用，上海人工智能实验室开发MD仿照AI新格式

论文链接：https://www.nature.com/articles/s42256-024-00818-6

份子动力学 (MD) 在物理、化学、生物和材料科学等诸多领域中提供了原子见解。MD 仿照的准确性和效率取决于原子间势的选择，原子间势是描述份子零碎中原子势能的数学函数。

机器进修原子间势（MLIP）能够借助机器进修模型拟合重新算能量和力，从而准确高效地实现重新算。其中，图神经网络被广泛利用，钻研者还开发了等变神经网络来保持份子零碎的等变性，以提高原子间势预计的机能。

尽管 MLIP 已被广泛钻研，但由于重新算的成本高昂，训练数据的缺乏，其机能和可转移性受到限制。

GPIP：机器进修原子间势的几许进修框架

在此，钻研团队提出了一种 MLIP 的几许进修框架：原子间势几许巩固预训练（Geometry-enhanced Pretraining on Interatomic Potentials，GPIP），该框架由几许结构生成和几许巩固预训练两部分组成。

低成本、准确、稳健，各类份子通用，上海人工智能实验室开发MD仿照AI新格式

图示：GPIP 的总体架构。（起源：论文）

钻研职员提出了一个自监督进修（SSL）框架，首先对廉价且易于获取的经典 MD (CMD) 数据进行自监督预训练，然后对重新算 MD (AIMD) 生成的符号数据进行微调以进修任务相关信息。在此框架下，可以以有限的成本轻松生成特定份子零碎的大规模预训练数据集，巩固预训练能力，并避免预训练数据零碎与测试数据零碎之间的域差距。

在此基础上，钻研职员还提出了一种几许巩固的 SSL 格式，该格式涉及三个互补的任务，包括利用噪声坐标恢复屏蔽原子、利用屏蔽原子预计噪声以及利用 3D 网络进行对比进修，以便更好地从 CMD 数据中提取拓扑和 3D 几许信息。

该钻研的主要贡献如下：

（1）提出了一个用于 MLIP 的几许进修框架：GPIP，由两个部分组成：几许结构生成和几许巩固预训练。

（2）钻研证明，CMD 仿照产生的未符号几许结构有利于原子间势预计，且计算成本非常低。

（3）设计了一种针对份子结构数据的几许巩固自监督预训练格式。

（4）钻研职员利用涵盖各种份子零碎的 MLIP 和数据集来评估其格式。该格式在所有实验中都表现出一致的稳健性。

GPIP 的有效性归因于自监督任务能够从具有经验力场的 CMD 仿照生成的数据中有效提取结构信息的能力。尽管不如重新计算格式准确，但 CMD 仿照可以提供物理上合理的原子结构，因为经验力场鉴于物理公式。

低成本、准确、稳健，各类份子通用，上海人工智能实验室开发MD仿照AI新格式

图示：将预训练和微调数据投影到 SchNet-GPIP 模型的嵌入上。（起源：论文）

此外，当从不同温度和压力下的长时间 CMD 仿照中采样时，可以从大空间采样丰富的结构数据，覆盖下游任务中的微调数据集。这种覆盖范围可以通过均匀流形近似和投影降维格式可视化。

涵盖各种份子零碎

为了证明其格式的有效性，钻研职员用 GPIP 预训练 MLIP，并将其应用于各种具有挑战性的基准以进行原子间势预计。

表 1：有机小份子 MD17 数据集的结果。（起源：论文）

低成本、准确、稳健，各类份子通用，上海人工智能实验室开发MD仿照AI新格式

MD17 数据集由 AIMD 仿照生成的有机小份子组成。鉴于 GPIP 的模型与基线模型的力预计平均绝对误差（MAE）比较如表 1 所示。鉴于 GPIP 的 SchNet、DimeNet、SphereNet 和 GemNet-T 的机能均优于相应的基线模型。

低成本、准确、稳健，各类份子通用，上海人工智能实验室开发MD仿照AI新格式

图示：在 ISO17 数据集上的结果。（起源：论文）

ISO17 数据集由 AIMD 仿照生成的 C7O2H10 异构体的 MD 轨迹组成。钻研职员首先利用 ISO17 数据集中的 20,000 个构型的小数据集和 400,000 个构型的大数据集进行微调。结果显示，尽管微调数据集非常大，但鉴于 GPIP 的模型在这两项任务上都显著优于非预训练的模型。

表 2：Water 数据集的结果。（起源：论文）

低成本、准确、稳健，各类份子通用，上海人工智能实验室开发MD仿照AI新格式

由于结构的复杂性，为带有周期性边界条件（PBCs）的扩展零碎训练 MLIP 比单份子零碎更困难。钻研职员将 GPIP 用于含有 PBC 的液态水钻研。鉴于 GPIP 的模型不仅提高了力预计的准确性，而且还提高了 MD 仿照中的其他关键指标。

表 3：电解质数据集的结果。（起源：论文）

低成本、准确、稳健，各类份子通用，上海人工智能实验室开发MD仿照AI新格式

为了更好地评估 MLIP 的机能，还开发了一个电解质溶液数据集，其中包含更多类型的元素和构型。

值得强调的是，与获得训练集准确标签的重新计算相比，GPIP 的计算复杂度可以忽略不计。虽然增加训练数据的数量也可以提高准确性，但由于重新计算，计算成本可能比 GPIP 高数百倍。

总之，钻研职员提出了一种称为 GPIP 的 MLIP 几许进修框架。实验结果表明，鉴于 GPIP 的模型始终显著优于相应的基线模型，表现出显著的有效性和稳健性。

该钻研非常适用于利用 MLIP 进行 MD 仿照，特别是对于难以获得足够训练数据的复杂份子零碎。

注：封面来自网络

{{userData.name}}已认证

低成本、准确、稳健，各类份子通用，上海人工智能实验室开发MD仿照AI新格式

GPIP：机器进修原子间势的几许进修框架

涵盖各种份子零碎

北汽极狐发布达尔文2.0技能体系，引领新能源汽车技能迈向新高度

埋头钻研一年后，阶跃星辰交出了第一份答卷

刚刚，AI颠覆物理模拟：一句话精准仿真，学术圈半壁江山联手耗时24个月研究成果

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

2024年AI 编程现在可以做到什么程度？

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践

抢跑OpenAI！谷歌Gemini 2.0震撼登场：全面转向Agent，多模态输入输出，免费随便玩

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！