编辑 | 萝卜皮
份子动力学 (MD) 摹拟可以深入了解复杂的过程,但准确的 MD 摹拟需要昂贵的量子力学估计。对于较大的零碎,利用高效但不太可靠的经验力场。机器进修力场(MLFF)提供与重新估计方法相当的精度,速度更快更高效,但难以摹拟大份子中的长程相互作用。
Google DeepMind、柏林工业大学(Technische Universität Berlin)和卢森堡大学(University of Luxembourg)的研讨人员提出了一种通用方法 GEMS,通过对「自下而上」和「自上而下」份子片断进行训练,来构建用于大规模份子摹拟的准确 MLFF。
GEMS 允许以重新估计级别的质量,对超过 25,000 个原子进行纳秒级 MD 摹拟,正确预计聚丙氨酸中不同螺旋基序之间的静态振动,并与溶剂化 Crambin 中大规模蛋白质-水波动的太赫兹振动光谱产生良好的一致性。该团队分析表明,重新开始精度的摹拟对于理解静态生物份子过程是必要的。
研讨以「Biomolecular dynamics with machine-learned quantum-mechanical force fields trained on diverse chemical fragments」为题,于 2024 年 4 月 5 日发布在《Science Advances》。
份子动力学(MD)摹拟通过估计化学和生物过程中单个原子的运动,为理解份子属性和功能提供了解释。
然而,由于透彻求解多体薛定谔方程的难度,目前仅适用于短期内少量原子的摹拟,而近似的经验力场(FF)则因其估计效率而广泛应用于较大零碎的摹拟。
在需要额外准确性和灵活性的情况下,如研讨酶反应时,量子力学/份子力学(QM/MM)摹拟提供了一种替代方案,即将零碎分为用重新算方法建模的小 QM 区域和用 FF 描述的大 MM 区域。
近年来,机器进修力场(MLFF)作为一种新的 MD 摹拟手段出现,它结合了保守 FF 的估计效率和量子化学方法的高精度,通过在重新算参考数据上训练机器进修模型来预计能量和力,无需显式求解薛定谔方程。
虽然在小到中等规模零碎的摹拟中,MLFF 取得了成功,但构建适用于大型异质零碎(如蛋白质或其他生物相关零碎)的 MLFF 仍面临挑战。
图示:GEMS 摹拟的解释。(来历:论文)
在最新的工作中,Google DeepMind 和卢森堡大学的研讨人员提出了一种为大规模份子摹拟构建透彻 MLFF 的通用方法,称为 GEMS。
基于分而治之的原则,大型异质零碎的 MLFF 在不同大小的份子片断上进行训练,这些份子片断仍然适合电子结构估计。这些碎片并不构成更大零碎的分区;相反,它们可以是重叠的部分,甚至只是在结构上与原始零碎相关。
在评估 MLFF 时,不会直接利用这些片断,而是仅在训练过程中利用,从而了解较大零碎中存在的相关物理化学相互作用。
根据这些片断数据(包括水或溶剂份子),ML 模型推断重组原始零碎,并大概预计完整的势能表面(PES),包括与溶剂的相互作用,这使得 GEMS 大概成功解决重新开始质量生物份子摹拟的长期挑战。因此,GEMS 指的是利用以这种方式构建的 MLFF 运行份子摹拟的一般原理。
图示:GEMS 方法概述。(来历:论文)
虽然 MLFF 可以成功地从小份子中进修局部化学相互作用,但需要足够数量的较大片断来进修推广到更大零碎所需的远程效力,并相对于重新开始的基本事实实现高预计精度(能量为 0.450 meV/atom,力为 36.704 meV/Å)。
在这里,科学家依赖于最近提出的 SpookyNet 架构,该架构通过将物理驱动的交互项嵌入到 ML 架构中并从参考数据中进修其参数来显式地摹拟色散和静电。
研讨人员注意到 SpookyNet 模型并不是第一个明确摹拟远程静电的模型,其他模型也遵循类似的方法。此外,原子核之间短程排斥力的经验项提高了模型对强键畸变的稳健性。
SpookyNet 还包括一种描述非局部电荷转移等效力的机制,而其他 MLFF 通常无法做到这一点。当利用适当的参考数据进行训练时,这些组件共同使模型大概推广到更大的份子。
图示:自上而下和自下而上片断的生成。(来历:论文)
至关重要的是,这使得 GEMS 大概解释合作的远程效力,这对于保守的 FF 来说是困难或不大概的。虽然小片断的大量参考数据主要用于进修短程相互作用的稳健「基线」表示,但额外的较大片断允许 GEMS 还捕获长程相互作用以及不同相互作用尺度之间的相互作用。用同样的方式,也可以囊括溶剂效力(通过明确描述与溶剂份子的相互作用)。
研讨证明,GEMS 可以进修从此类片断数据中准确地摹拟大规模现象,例如协作偏振效力,从而与重新开始的地面事实实现密切一致。
然而,MLFF 的质量和可靠性应该通过其对实验测量的预计来判断,例如,GEMS 大概定量重现有关不同温度下聚丙氨酸零碎螺旋稳定性的实验结果,并正确描述溶剂化的 46 个残基蛋白质(crambin)的太赫兹红外(IR)振动光谱。
图示:利用 GEMS 透彻摹拟聚丙氨酸零碎。(来历:论文)
利用保守的经验 FF 很难实现这一点,保守的经验 FF 不考虑集体多体相互作用,因此产生最多是定性的大规模振动模式,通常会在 25 至 150 cm−1 光谱区域内出现峰结构的模糊和振幅的夸大。
GEMS 适用于模型肽和含 8205 个明确水份子(>25,000 个原子)的水溶液中的 46 残基蛋白质 Crambin 的 MD 摹拟。与保守的 FF(例如 AMBER99SB-ILDN)相比,GEMS 更接近根据密度泛函理论估计的能量和力。
图示:Cambin 中的半胱氨酸/精氨酸残基。(来历:论文)
研讨结果揭示了聚丙氨酸肽折叠途径中以前未知的中间体以及 α-螺旋和 310-螺旋之间的静态平衡。
在溶剂化 Crambin 的摹拟中,GEMS 表明蛋白质运动在性质上有所不同,与保守 FF 的估计相比,PES 更平滑,振动更柔和,显示出对比的短时标和长时标静态。
低频振动模式很大程度上决定了蛋白质的自由能;该团队的结果表明,为了充分理解生物份子的静态过程,大概需要重新开始进行透彻地估计摹拟。
图示:Crambin 在太赫兹时间尺度上的红外光谱。(来历:论文)
结语
GEMS 的未来工作大概包括将其扩展到更大零碎和更长时间尺度的摹拟,以及大概的扩展包括纳入核量子效力,这些都大概为研讨大份子零碎的静态提供新的视角。
虽然 GEMS 在估计效率上优于重新算估计,但仍低于保守 FF。此外,GEMS 在评估时通常需要更多的内存,这限制了可摹拟的最大零碎大小。尽管如此,GEMS 仍然大概在保持重新算精度的同时摹拟数千原子零碎的几纳秒静态。
利用透彻的 MLFF 的另一个优势在于大概获得任意导数,包括化学衍生物。这大概使得针对局部突变优化可观测量成为大概,从而在药物设计和蛋白质工程中发挥重要作用。
图示:实现透彻的量子力学蛋白质-蛋白质相互作用:ACE2(蓝色)和 SARS-CoV 刺突蛋白 RBD(红色)的气相结合曲线。(来历:论文)
GEMS在摹拟蛋白质-蛋白质相互作用方面展现出应用潜力,例如在摹拟 ACE2 与 SARS-CoV-1 和 SARS-CoV-2 变体的 RBD 结合时,GEMS 提供了更强的结合能预计,这大概对理解病毒如何与宿主细胞相互作用具有重要意义。
虽然目前GEMS利用的片断是特定于零碎的,但未来的发展大概会使其大概覆盖更广泛的零碎范围,从而实现具有化学可转移性和尺寸可扩展性的「通用」MLFF,这将进一步推动 GEMS 在多个领域的应用。
论文链接:https://www.science.org/doi/10.1126/sciadv.adn4397