效率高、成本低,从单一构造到平均分散,微软AI份子猜测框架登Nature子刊

编辑 | 紫罗近年来,深度进修技术在份子微观构造猜测中取得了巨大的进展。然而,份子的宏观属性和功能往往取决于份子构造在平均态下的分散,仅了解份子的微观构造还远远不够。获得这些分散的传统步骤,如份子动力学模仿,但这些步骤昂贵又耗时。在此,来自微软研讨院科学智能中心(Microsoft Research AI4Science)的研讨职员,提出了一种可用于猜测份子构造平均分散的深度进修框架,称为分散式图分析器(Distributional Graphormer,DiG)。DiG 框架能够有效生成不同的构象,并提供状态密度

效率高、成本低,从单一构造到平均分散,微软AI份子猜测框架登Nature子刊

编辑 | 紫罗

近年来,深度进修技术在份子微观构造猜测中取得了巨大的进展。然而,份子的宏观属性和功能往往取决于份子构造在平均态下的分散,仅了解份子的微观构造还远远不够。获得这些分散的传统步骤,如份子动力学模仿,但这些步骤昂贵又耗时。

在此,来自微软研讨院科学智能中心(Microsoft Research AI4Science)的研讨职员,提出了一种可用于猜测份子构造平均分散的深度进修框架,称为分散式图分析器(Distributional Graphormer,DiG)。

DiG 框架能够有效生成不同的构象,并提供状态密度的估计,比传统步骤快几个数量级。

研讨展示了 DiG 在多项份子工作中的应用,包括蛋白质构象采样、配体构造采样、催化剂吸附物采样和性质引导构造生成。DiG 为份子科学开辟了新的研讨机会。

相关研讨以《Predicting equilibrium distributions for molecular systems with deep learning》为题,于 5 月 8 日发布在《Nature Machine Intelligence》上。

效率高、成本低,从单一构造到平均分散,微软AI份子猜测框架登Nature子刊

论文链接:https://www.nature.com/articles/s42256-024-00837-3

深度进修步骤擅长高效猜测份子构造。例如,AlphaFold 以原子精度猜测蛋白质构造;基于神经网络的对接步骤猜测配体结合构造;深度进修模型猜测催化剂表面的吸附构造。

然而,猜测最可能的构造只能揭示平均份子体系的一小部分信息。份子可以非常灵活,平均分散对于宏观性质的精确计算至关重要。

与单一构造猜测不同,平均分散研讨仍然依赖于经典且昂贵的模仿步骤,而深度进修步骤尚不发达。

深度进修步骤 DiG,猜测份子体系的平均分散

在此,研讨职员开发了一种深度进修步骤:DiG,用于近似猜测平均分散并有效地对份子体系的多样化和功能相关构造进行采样。证明了 DiG 可以泛化份子体系,并提出类似于实验中观察到的不同构造。

效率高、成本低,从单一构造到平均分散,微软AI份子猜测框架登Nature子刊

图 1:使用 DiG 框架猜测构象分散。(来源:论文)

DiG 从模仿退火中汲取灵感,通过模仿退火过程将均匀分散转变为复杂分散。DiG 模仿一种聚集过程,逐渐将简单分散转变为目标分散,近似给定份子体系的平均分散。由于选择简单分散以实现独立采样并具有封闭形式的密度函数,因此 DiG 可以实现平均分散的独立采样,并通过跟踪过程提供分散的密度函数。

聚集过程还可以偏向逆向设想所需的属性,并允许在穿过高概率区域的构造之间进行插值。这种聚集过程是通过基于 Graphomer 架构的深度进修模型来实现的,以目标份子的描述符(例如化学图或蛋白质序列)为条件。DiG 可以使用来自实验和 MD 模仿的构造数据进行训练。

对于数据稀缺的情况,开发了一种物理信息聚集预训练(PIDP)步骤,用体系的能量函数(例如力场)来训练 DiG。在基于数据或能量监督模式下,模型在每个聚集步骤中独立获取训练信号,从而实现有效训练,避免长链反向传播。

生成真实且多样化的份子构造

研讨职员在三个猜测工作上评价 DiG:蛋白质构象、蛋白质-配体相互作用以及催化剂表面上的份子吸附。此外,还通过将 DiG 应用于碳同素异形体生成来研讨 DiG 的逆向设想本领,以获得所需的电子带隙。

DiG 在这些工作中生成真实且多样化的份子构造。

对于蛋白质构象采样,DiG 有效地生成了类似于主要功能状态的构造。除了蛋白质的静态构造猜测之外,DiG 还生成对应于不同功能状态的多种构造。

效率高、成本低,从单一构造到平均分散,微软AI份子猜测框架登Nature子刊

图 2:蛋白质构象的分散和采样结果。(来源:论文)

蛋白质构象采样的一个直接延伸是猜测可成药口袋中的配体构造。为了模仿蛋白质和配体之间的相互作用,研讨职员对 1,500 个复合物进行了 MD 模仿,以训练 DiG 模型。使用训练数据集中不存在的 409 个蛋白质配体体系35,36 评价了 DiG 的性能。

效率高、成本低,从单一构造到平均分散,微软AI份子猜测框架登Nature子刊

图 3:蛋白口质袋周围配体构造采样的 DiG 结果。(来源:论文)

总的来说,研讨职员观察到生成的构造类似于实验观察到的姿势(poses)。

识别活性吸附位点是多相催化的核心工作。由于复杂的表面-份子相互作用,此类工作在很大程度上依赖于量子化学步骤和采样技术的组合。这些会导致巨大的计算成本。

研讨职员通过在开放催化剂项目中的催化剂-吸附物体系的 MD 轨迹上对其进行训练,并对训练集中未包含的吸附物和表面的随机组合进行进一步评价,来评价 DiG 执行此工作的本领。

效率高、成本低,从单一构造到平均分散,微软AI份子猜测框架登Nature子刊

图 4:催化剂吸附质采样问题的 DiG 结果。(来源:论文)

结果证实,DiG 猜测了网格搜索发现的所有稳定位点,并且吸附构型非常一致,均方根偏差为 0.5-0.8 Å。结果还证明了 DiG 在催化剂吸附猜测中的跨体系泛化本领。

此外,DiG 不仅猜测具有正确构型的吸附位点,而且还提供每个吸附构型的概率估计。

最后,研讨职员还通过将 DiG 应用于碳同素异形体生成来研讨 DiG 的逆向设想本领,以获得所需的电子带隙。

效率高、成本低,从单一构造到平均分散,微软AI份子猜测框架登Nature子刊

图 5:具有特定带隙的碳构造的性能引导构造生成。(来源:论文)

研讨进一步证明,通过应用有利于具有所需性质的构造的 biased 分散,DiG 可以促进份子构造的逆设想。这种本领可以为缺乏足够数据的特性扩展份子设想。

对份子科学的各领域产生潜在影响

这些结果表明,DiG 将份子的深度进修从猜测单一构造向猜测构造分散推进,为有效猜测份子的热力学性质铺平了道路。

尽管给定状态下平均分散的定量猜测将取决于数据可用性,但 DiG 探索广阔且多样的构象空间的本领有助于发现新颖的功能性份子构造,包括蛋白质构造、配体构象异构体和吸附物构型。

DiG 可以帮助连接份子体系的微观描述符和宏观观察,对份子科学的各个领域产生潜在影响,包括但不限于生命科学、药物设想、催化研讨和材料科学。

给TA打赏
共{{data.count}}人
人已打赏
理论

Sora是全国模仿器吗?全球首篇综述全面解析通用全国模型

2024-5-13 15:24:00

理论

AI 能够是我们未能与外星野蛮取得联系的「大过滤器」

2024-5-14 14:16:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索