编辑 | 紫罗
近年来,深度学习技术在分子微观结构预测中取得了巨大的进展。然而,分子的宏观属性和功能往往取决于分子结构在平衡态下的分布,仅了解分子的微观结构还远远不够。获得这些分布的传统方法,如分子动力学模拟,但这些方法昂贵又耗时。
在此,来自微软研究院科学智能中心(Microsoft Research AI4Science)的研究人员,提出了一种可用于预测分子结构平衡分布的深度学习框架,称为分布式图分析器(Distributional Graphormer,DiG)。
DiG 框架能够有效生成不同的构象,并提供状态密度的估计,比传统方法快几个数量级。
研究展示了 DiG 在多项分子任务中的应用,包括蛋白质构象采样、配体结构采样、催化剂吸附物采样和性质引导结构生成。DiG 为分子科学开辟了新的研究机会。
相关研究以《Predicting equilibrium distributions for molecular systems with deep learning》为题,于 5 月 8 日发布在《Nature Machine Intelligence》上。
论文链接:https://www.nature.com/articles/s42256-024-00837-3
深度学习方法擅长高效预测分子结构。例如,AlphaFold 以原子精度预测蛋白质结构;基于神经网络的对接方法预测配体结合结构;深度学习模型预测催化剂表面的吸附结构。
然而,预测最可能的结构只能揭示平衡分子系统的一小部分信息。分子可以非常灵活,平衡分布对于宏观性质的精确计算至关重要。
与单一结构预测不同,平衡分布研究仍然依赖于经典且昂贵的模拟方法,而深度学习方法尚不发达。
深度学习方法 DiG,预测分子系统的平衡分布
在此,研究人员开发了一种深度学习方法:DiG,用于近似预测平衡分布并有效地对分子系统的多样化和功能相关结构进行采样。证明了 DiG 可以泛化分子系统,并提出类似于实验中观察到的不同结构。
图 1:使用 DiG 框架预测构象分布。(来源:论文)
DiG 从模拟退火中汲取灵感,通过模拟退火过程将均匀分布转变为复杂分布。DiG 模拟一种扩散过程,逐渐将简单分布转变为目标分布,近似给定分子系统的平衡分布。由于选择简单分布以实现独立采样并具有封闭形式的密度函数,因此 DiG 可以实现平衡分布的独立采样,并通过跟踪过程提供分布的密度函数。
扩散过程还可以偏向逆向设计所需的属性,并允许在穿过高概率区域的结构之间进行插值。这种扩散过程是通过基于 Graphomer 架构的深度学习模型来实现的,以目标分子的描述符(例如化学图或蛋白质序列)为条件。DiG 可以使用来自实验和 MD 模拟的结构数据进行训练。
对于数据稀缺的情况,开发了一种物理信息扩散预训练(PIDP)方法,用系统的能量函数(例如力场)来训练 DiG。在基于数据或能量监督模式下,模型在每个扩散步骤中独立获取训练信号,从而实现有效训练,避免长链反向传播。
生成真实且多样化的分子结构
研究人员在三个预测任务上评估 DiG:蛋白质构象、蛋白质-配体相互作用以及催化剂表面上的分子吸附。此外,还通过将 DiG 应用于碳同素异形体生成来研究 DiG 的逆向设计能力,以获得所需的电子带隙。
DiG 在这些任务中生成真实且多样化的分子结构。
对于蛋白质构象采样,DiG 有效地生成了类似于主要功能状态的结构。除了蛋白质的静态结构预测之外,DiG 还生成对应于不同功能状态的多种结构。
图 2:蛋白质构象的分布和采样结果。(来源:论文)
蛋白质构象采样的一个直接延伸是预测可成药口袋中的配体结构。为了模拟蛋白质和配体之间的相互作用,研究人员对 1,500 个复合物进行了 MD 模拟,以训练 DiG 模型。使用训练数据集中不存在的 409 个蛋白质配体系统35,36 评估了 DiG 的性能。
图 3:蛋白口质袋周围配体结构采样的 DiG 结果。(来源:论文)
总的来说,研究人员观察到生成的结构类似于实验观察到的姿势(poses)。
识别活性吸附位点是多相催化的核心任务。由于复杂的表面-分子相互作用,此类任务在很大程度上依赖于量子化学方法和采样技术的组合。这些会导致巨大的计算成本。
研究人员通过在开放催化剂项目中的催化剂-吸附物系统的 MD 轨迹上对其进行训练,并对训练集中未包含的吸附物和表面的随机组合进行进一步评估,来评估 DiG 执行此任务的能力。
图 4:催化剂吸附质采样问题的 DiG 结果。(来源:论文)
结果证实,DiG 预测了网格搜索发现的所有稳定位点,并且吸附构型非常一致,均方根偏差为 0.5-0.8 Å。结果还证明了 DiG 在催化剂吸附预测中的跨系统泛化能力。
此外,DiG 不仅预测具有正确构型的吸附位点,而且还提供每个吸附构型的概率估计。
最后,研究人员还通过将 DiG 应用于碳同素异形体生成来研究 DiG 的逆向设计能力,以获得所需的电子带隙。
图 5:具有特定带隙的碳结构的性能引导结构生成。(来源:论文)
研究进一步证明,通过应用有利于具有所需性质的结构的 biased 分布,DiG 可以促进分子结构的逆设计。这种能力可以为缺乏足够数据的特性扩展分子设计。
对分子科学的各领域产生潜在影响
这些结果表明,DiG 将分子的深度学习从预测单一结构向预测结构分布推进,为有效预测分子的热力学性质铺平了道路。
尽管给定状态下平衡分布的定量预测将取决于数据可用性,但 DiG 探索广阔且多样的构象空间的能力有助于发现新颖的功能性分子结构,包括蛋白质结构、配体构象异构体和吸附物构型。
DiG 可以帮助连接分子系统的微观描述符和宏观观察,对分子科学的各个领域产生潜在影响,包括但不限于生命科学、药物设计、催化研究和材料科学。