低成本、准确、稳健,各类分子通用,上海人工智能实验室开发MD模拟AI新方法

编辑 | 绿萝机器学习原子间势(MLIP)因其兼顾高精度和高效率的优势,在材料、化学、生物学等领域的大尺度原子模拟研究中引起了广泛关注。然而,高性能 MLIP 依赖于大量标记数据,通过从头计算获取这些数据的成本很高。近日,上海人工智能实验室、复旦大学和清华大学的研究团队,提出了一种 MLIP 的几何学习框架 GPIP,利用未标记的构型来提高 MLIP 的性能。研究表明,GPIP 只需少量的计算成本即可显著提高 MLIP 的准确性和泛化性,并且与不同的不变或等变图神经网络架构兼容。该方法增强了 MLIP,并推进了分子

图片

编辑 | 绿萝

机器学习原子间势(MLIP)因其兼顾高精度和高效率的优势,在材料、化学、生物学等领域的大尺度原子模拟研究中引起了广泛关注。

然而,高性能 MLIP 依赖于大量标记数据,通过从头计算获取这些数据的成本很高。

近日,上海人工智能实验室、复旦大学和清华大学的研究团队,提出了一种 MLIP 的几何学习框架 GPIP,利用未标记的构型来提高 MLIP 的性能。

研究表明,GPIP 只需少量的计算成本即可显著提高 MLIP 的准确性和泛化性,并且与不同的不变或等变图神经网络架构兼容。该方法增强了 MLIP,并推进了分子系统的模拟。

相关研究以「Geometry-enhanced pretraining on interatomic potentials」为题,于 2024 年 4 月 5 日发布在《Nature Machine Intelligence》上。

图片

论文链接:https://www.nature.com/articles/s42256-024-00818-6

分子动力学 (MD) 在物理、化学、生物和材料科学等诸多领域中提供了原子见解。MD 模拟的准确性和效率取决于原子间势的选择,原子间势是描述分子系统中原子势能的数学函数。

机器学习原子间势(MLIP)能够借助机器学习模型拟合从头算能量和力,从而准确高效地实现从头算。其中,图神经网络被广泛使用,研究者还开发了等变神经网络来保持分子系统的等变性,以提高原子间势预测的性能。

尽管 MLIP 已被广泛研究,但由于从头算的成本高昂,训练数据的缺乏,其性能和可转移性受到限制。

GPIP:机器学习原子间势的几何学习框架

在此,研究团队提出了一种 MLIP 的几何学习框架:原子间势几何增强预训练(Geometry-enhanced Pretraining on Interatomic Potentials,GPIP) ,该框架由几何结构生成和几何增强预训练两部分组成。

图片

图示:GPIP 的总体架构。(来源:论文)

研究人员提出了一个自监督学习(SSL)框架,首先对廉价且易于获取的经典 MD (CMD) 数据进行自监督预训练,然后对从头算 MD (AIMD) 生成的标记数据进行微调以学习任务相关信息。在此框架下,可以以有限的成本轻松生成特定分子系统的大规模预训练数据集,增强预训练能力,并避免预训练数据系统与测试数据系统之间的域差距。

在此基础上,研究人员还提出了一种几何增强的 SSL 方法,该方法涉及三个互补的任务,包括使用噪声坐标恢复屏蔽原子、使用屏蔽原子预测噪声以及使用 3D 网络进行对比学习,以便更好地从 CMD 数据中提取拓扑和 3D 几何信息。

该研究的主要贡献如下:

(1)提出了一个用于 MLIP 的几何学习框架:GPIP,由两个部分组成:几何结构生成和几何增强预训练。

(2)研究证明,CMD 模拟产生的未标记几何结构有利于原子间势预测,且计算成本非常低。

(3)设计了一种针对分子结构数据的几何增强自监督预训练方法。

(4)研究人员使用涵盖各种分子系统的 MLIP 和数据集来评估其方法。该方法在所有实验中都表现出一致的稳健性。

GPIP 的有效性归因于自监督任务能够从具有经验力场的 CMD 模拟生成的数据中有效提取结构信息的能力。尽管不如从头计算方法准确,但 CMD 模拟可以提供物理上合理的原子结构,因为经验力场基于物理公式。

图片

图示:将预训练和微调数据投影到 SchNet-GPIP 模型的嵌入上。(来源:论文)

此外,当从不同温度和压力下的长时间 CMD 模拟中采样时,可以从大空间采样丰富的结构数据,覆盖下游任务中的微调数据集。这种覆盖范围可以通过均匀流形近似和投影降维方法可视化。

涵盖各种分子系统

为了证明其方法的有效性,研究人员用 GPIP 预训练 MLIP,并将其应用于各种具有挑战性的基准以进行原子间势预测。

表 1:有机小分子 MD17 数据集的结果。(来源:论文)

图片

MD17 数据集由 AIMD 模拟生成的有机小分子组成。基于 GPIP 的模型与基线模型的力预测平均绝对误差(MAE)比较如表 1 所示。基于 GPIP 的 SchNet、DimeNet、SphereNet 和 GemNet-T 的性能均优于相应的基线模型 。

图片

图示:在 ISO17 数据集上的结果。(来源:论文)

ISO17 数据集由 AIMD 模拟生成的 C7O2H10 异构体的 MD 轨迹组成。研究人员首先使用 ISO17 数据集中的 20,000 个构型的小数据集和 400,000 个构型的大数据集进行微调。结果显示,尽管微调数据集非常大,但基于 GPIP 的模型在这两项任务上都显著优于非预训练的模型。

表 2:Water 数据集的结果。(来源:论文)

图片

由于结构的复杂性,为带有周期性边界条件(PBCs)的扩展系统训练 MLIP 比单分子系统更困难。研究人员将 GPIP 用于含有 PBC 的液态水研究。基于 GPIP 的模型不仅提高了力预测的准确性,而且还提高了 MD 模拟中的其他关键指标。

表 3:电解质数据集的结果。(来源:论文)

图片

为了更好地评估 MLIP 的性能,还开发了一个电解质溶液数据集,其中包含更多类型的元素和构型。

值得强调的是,与获得训练集准确标签的从头计算相比,GPIP 的计算复杂度可以忽略不计。虽然增加训练数据的数量也可以提高准确性,但由于从头计算,计算成本可能比 GPIP 高数百倍。

总之,研究人员提出了一种称为 GPIP 的 MLIP 几何学习框架。实验结果表明,基于 GPIP 的模型始终显著优于相应的基线模型,表现出显著的有效性和稳健性。

该研究非常适用于使用 MLIP 进行 MD 模拟,特别是对于难以获得足够训练数据的复杂分子系统。

注:封面来自网络

相关资讯

「复活」古生物分子,AI解决抗生素耐药性,复旦、宾大合作团队两篇论文登Cell和Nature子刊

编辑 | 萝卜皮抗生素耐药性感染每年在全球造成约 127 万人死亡,预计到 2050 年,如果没有特效的新药,每年死亡人数将达到 1000 万人,因此需要采取紧急措施来应对抗生素耐药性。宾夕法尼亚大学的校长助理教授(Presidential Assistant Professor) Cesar de la Fuente 说:「即使感觉身体好些了,也要确保完成抗生素疗程,这是许多人听过,但经常忽视的医学口头禅。」他解释道,这句话至关重要,不遵守规定可能会影响抗生素的使用功效。「近几十年来,这导致了耐药细菌的增加,全球

数字病理与AI辅助诊断,助力肿瘤精准诊疗

图:前沿对话-数字病理与AI辅助诊断赋能疾病精准诊疗编辑 | ScienceAI作为疾病诊断的「金标准」,病理诊断是指导肿瘤临床治疗、评估预后的最可靠依据,在精准医疗时代,准确、高效的病理诊断所发挥的价值日益凸显。 近年来,数字化浪潮席卷全球,病理诊断领域也积极拥抱数字化、智慧化变革,为提质增效开辟创新路径。 今日,罗氏诊断携整体数字化智慧病理解决方案亮相第七届中国国际进口博览会,并分享与探讨了数字病理和人工智能(AI)辅助诊断在疾病精准诊疗中所发挥的重要价值。

复旦大学规范本科毕业论文 AI 使用:禁止用于方案设计、正文生成

复旦大学教务处官网显示,11 月 28 日,复旦大学发布《复旦大学关于在本科毕业论文(设计)中使用 AI 工具的规定(试行)》(以下简称《规定》)。《规定》中提到的 AI 工具包括生成式人工智能(简称“GenAI”或“生成式 AI”)和人工智能辅助工具(简称“AI 辅助工具”)。