优于3D模型,成功率达90.6%,基于扩散的生成式AI从2D分子图探索过渡态

TSDiff 预测分布的概念说明。(来源:论文)编辑 | X过渡态(TS)探索对于阐明化学反应机制和动力学建模至关重要。最近,机器学习模型在 TS 几何形状(geometries)预测方面表现出了卓越的性能。然而,它们通常需要反应物和产物的 3D 构象,并以其适当的方向作为输入,这需要大量的努力和计算成本。近日,韩国科学技术院(KAIST)的研究人员提出了一种基于随机扩散方法的生成方法,即 TSDiff,用于仅从 2D 分子图预测 TS 几何形状。TSDiff 在准确性和效率方面均优于现有的具有 3D 几何形状的

优于3D模型,成功率达90.6%,基于扩散的生成式AI从2D分子图探索过渡态

TSDiff 预测分布的概念说明。(来源:论文)

编辑 | X

过渡态(TS)探索对于阐明化学反应机制和动力学建模至关重要。最近,机器学习模型在 TS 几何形状(geometries)预测方面表现出了卓越的性能。然而,它们通常需要反应物和产物的 3D 构象,并以其适当的方向作为输入,这需要大量的努力和计算成本。

近日,韩国科学技术院(KAIST)的研究人员提出了一种基于随机扩散方法的生成方法,即 TSDiff,用于仅从 2D 分子图预测 TS 几何形状。TSDiff 在准确性和效率方面均优于现有的具有 3D 几何形状的 ML 模型。

此外,它能够对各种 TS 构象进行采样,因为它在训练中学习不同反应的 TS 几何分布。因此,与参考数据库相比,TSDiff 能在较低的势垒高度找到更有利的反应途径。这些结果表明,TSDiff 在高效、可靠的 TS 探索方面显示出巨大的潜力。

该研究以「Diffusion-based generative AI for exploring transition states from 2D molecular graphs」为题,于 2024 年 1 月 6 日发布在《Nature Communications》上。

图片

论文链接:https://www.nature.com/articles/s41467-023-44629-6

过渡态研究现状

过渡态是指一种瞬态分子构型,位于反应物通过最小能量路径到达产物的能垒之上,对应于势能面(PES)上的鞍点。识别 TS 是化学反应分析中的一项重要任务。尽管 TS 几何形状由于其瞬态性质而难以通过实验观察,但可以使用量子化学计算方法获得它们。

在过去的几十年里,开发了各种 TS 优化技术并应用于许多化学反应,从而提供了对不同化学现象的见解。

TS 优化方法主要有两大类:单端方法和双端方法,具体取决于输入类型。前者依赖于一组反应物的 3D 几何形状或估计的 TS。双端方法利用反应物和产物的 3D 几何形状。虽然这些传统方法在实践中被广泛使用,但它们需要大量的计算成本,并且经常出现收敛问题,使得 TS 探索成为一项相当艰巨的任务。

最近,人们对使用机器学习 (ML) 方法来研究 TS 越来越感兴趣,目的是降低传统方法的高成本。例如,已经进行了大量研究来直接估计势垒高度。然而,该研究重点关注 TS 几何形状的预测。

传统方法和机器学习方法都需要为 3D 分子几何形状进行适当的输入准备。然而,众所周知,传统方法的结果对输入结构很敏感。机器学习方法还采用反应物和产物的 3D 构象作为输入。因此,它们不可避免地会遇到相同的输入灵敏度问题。

随机生成模型:TSDiff

为了解决这个问题,KAIST 研究人员提出了这是一种机器学习模型——TSDiff,可以学习 TS 构象和 2D 分子图之间的直接映射。因此,人们可以跳过构象和方向的正确选择。

此外,TSDiff 可以采用随机扩散方法从 2D 图中生成各种可能的 TS 构象,可靠性高。因此,TSDiff 可以在整个 TS 生成过程中最大限度地减少用户的工作量,并在不直接考虑构象的情况下探索多种反应途径,从而实现高效率。

图片

图 1:TSDiff 概述。(来源:论文)

研究人员使用 Grambow 的数据集评估了 TSDiff 的性能。尽管简化了 2D 图的输入,但与依赖 3D 几何信息的现有方法相比,TSDiff 的准确率最高。

TSDiff 是一个随机生成模型,这意味着每次采样都会生成不同的几何形状。TSDiff 生成的不同几何形状对应于可以从相同的 2D 反应图构建的特定 TS 构象。例如,下图显示了与测试集中三个反应的特定构象和参考几何形状相对应的几个生成的几何形状。

图片

图 2:TSDiff 生成的过渡态 (TS) 构象示例。(来源:论文)

通过基于 DFT 的量子化学计算验证了 TSDiff 生成的多个 TS 构象的有效性。首先,对生成的几何形状进行鞍点优化,得到具有单一虚振动频率的 TS 几何形状。随后进行内禀反应坐标 (IRC) 计算,以验证 TS 几何形状是否对应于给定的图定义的反应。TSDiff 在此验证中取得了 90.6% 的极高成功率,显示了其作为初始 TS 几何猜测器的可靠性。

图片

图 3:TSDiff 生成的几何形状的可视化。(来源:论文)

基于这些结果,研究人员表示:「我们期望 TSDiff 能够极大地减轻 TS 探索过程中耗时的试错过程。我们还在鞍点发现了 2303 个新的 TS 构象,而不是使用 TSDiff 对测试集中的 1197 个反应进行八轮采样。其中一些对应于比参考文献更低的势垒高度,表明更有利的反应途径。」

图片

图 4:参考文献的势垒高度与 TSDiff 的势垒高度对比。(来源:论文)

未来潜力

TSDiff 的主要优点之一是它能够在不考虑反应物和产物的构象及其排列的情况下找到 TS。由于 TSDiff 不依赖于特定构象,因此它允许使用更通用的方法在图定义的反应中有效探索 TS。

TSDiff 能够有效捕获非反应坐标和不同反应坐标中可旋转键产生的 TS 构象。此外,TSDiff 也被证明是一个有效的初始 TS 猜测器,在后续 TS 优化过程中只需要少量的强制调用。总的来说,该研究结果证明了 TSDiff 作为高效可靠的 TS 探索的有前途的方法的潜力。

这些发现表明,随机扩散方法可以在平衡状态下准确地创建多种构象异构体,可扩展到 TS 探索。

然而,研究也有局限性,特别是它目前对有机反应的限制。尽管存在无机数据库,但缺乏大型无机反应数据库限制了机器学习方法在该领域的适用性。

随着未来数据的不断积累,研究人员表示 TSDiff 的用途将扩大到涵盖更广泛的化学反应,包括涉及无机物质的化学反应。

相关资讯

实现量子化学精度,同时规避几何弛豫瓶颈,深度对比学习用于分子性质有效预测

编辑 | 紫罗数据驱动的深度学习算法可以准确预测高级量子化学分子特性。然而,它们的输入必须限制在与训练数据集相同的量子化学几何弛豫水平,从而限制了它们的灵活性。采用替代的经济有效的构象生成方法会引入域偏移(domain-shift)问题,从而降低预测精度。近日,来自韩国首尔大学的研究人员提出了一种基于深度对比学习的域适应(domain-adaptation)方法,称为局部原子环境对比学习(Local Atomic environment Contrastive Learning,LACL)。LACL 通过比较不同的

准确率达 80%,深度学习识别布朗运动中纳米粒子形状

编辑 | 绿萝随着纳米粒子在医疗、制药和工业领域的实际应用。从材料的角度出发,需要对每个纳米粒子的性质和团聚状态进行评价并进行质量控制。评估液体中纳米粒子的一种方法是分析布朗运动的轨迹。虽然纳米粒子跟踪分析技术(Nano-tracking analysis,NTA) 是一种用于测量从微观到纳米尺度的单个粒子的简单方法,但它不能评估纳米粒子的形状一直是一个长期存在的问题。NTA 在使用 Stokes-Einstein 方程量化粒子大小时总是假设球形,但无法验证所测量的粒子是否真的是球形的。东京大学的研究团队提出了一种

150页在线书「几何深度学习」上线:利用对称性和不变性解决机器学习问题

CNN、GNN、LSTM、Transformer 等深度学习模型之间的共通之处是什么?在这本书里问题得到了解答。