编辑 | 凯霞
从「等价交换」的远古炼金术开始,化学一直是一门了解和控制物质间相互作用的学科。人们经过不断解锁和利用新的化学回响反映,研发出了一系列新材料。在为人们生活提供便利的同时也提升了能量利用效率,促进可持续发展。
一个基元化学回响反映由回响反映物,过渡态(TS),生成物三者构成。过渡态是化学中至关重要的 3D 布局,被广泛用于理解化学回响反映机制、估算回响反映能垒以及摸索庞大的回响反映网络。然而,由于其在回响反映过程中存在的时间极短(飞秒量级),实验中几乎不能够分离和表征过渡态。
常规情况下,人们使用量子化学的盘算方法,通过反复求解薛定谔方程,以确定已知回响反映物和生成物之间的过渡态。然而,这种盘算方法较为昂贵,并以经常失败而「臭名远扬」。同时,该方法受限于个人的经验直觉和盘算所需的资源,每个人所能摸索的化学回响反映也是局限的。这种限制在研讨未知的复杂回响反映时尤为「致命」。它会使研讨者忽略一些潜在能够发生的回响反映,导致会回响反映机理的误判,进而影响催化材料设想的思路。
针对这一问题,麻省理工学院(MIT)的一组研讨职员开发出了一种鉴于机械学习的替代方法,能够在几秒钟内发现这些布局。他们的新模型可以协助化学家摸索和设想新的回响反映和催化剂,从而生成高附加值的有用产品,例如燃料化合物或药物。此外,该模型还能够模拟自然发生的化学回响反映,如那些推动早期地球上生命演化的关键回响反映。
「过渡态作为设想催化剂或了解自然系统如何执行某些转化的起点,知道其具体布局十分重要。」MIT 化学工程和化学教授 Heather Kulik 说道。
相关研讨工作以「Accurate transition state generation with an object-aware equivariant elementary reaction diffusion model」为题发表在国际顶级期刊《Nature Computational Science》上。
其中麻省理工学院的段辰儒博士是第一加通讯作者 [https://rdcu.be/dtGSF]。此外,康奈尔大学博士生杜沅岂,麻省理工学院博士生贾皓钧以及麻省理工学院Heather Kulik 教授为该论文的共同作者。
论文链接:https://www.nature.com/articles/s43588-023-00563-7
MIT News 也报道了该研讨。
报道链接:https://news.mit.edu/2023/computational-model-captures-elusive-transition-states-1215
理论难点
现阶段,化学家可以使用一种鉴于密度泛函理论的量子化学盘算方法来盘算过渡态。然而,这种方法需要大量的盘算资源,需要数小时甚至数天才能完成一个过渡态的盘算。
为了解决盘算时间久的问题,一些研讨职员在近期开始尝试使用机械学习模型来发现过渡态布局。然而,迄今为止几乎所有开发的模型都要求将两个回响反映物建模为一个整体,而回响反映物之间相对于彼此则保持特定的几何构型(conformation)。任何其他能够的构型都会被机械学习模型误认为成一个新的回响反映。
「如果回响反映物份子被旋转,那么从原理上讲,在旋转之前和之后它们仍然可以经历相同的化学回响反映。就像我们在谈论电解水的时候,只会说水在特定条件下转换为氧气和氢气,而不会描述这些份子的相对几何位置。但在传统的机械学习方法中,模型将把回响反映物和生成物在不同几何位置的回响反映视为两个不同的回响反映。这使得机械学习训练变得更加困难,准确性也会随之下降。」段辰儒博士表示。
分散模型作为一个生成式模型曾被应用于图像处理中。最近,分散模型还被应用于 3D 份子和蛋白布局生成、蛋白质-配体对接以及鉴于布局的药物设想。在这些应用中,分散模型利用 3D special Euclidean group (SE(3)) 图神经网络(GNNs)来保留份子的排列、平移和旋转对称性。然而,由回响反映物、过渡态和产物组成的基元回响反映却遵循「对象感知」的 SE(3) 对称性。这是因为基元回响反映中三个对象之间的相互作用不是通过 3D 欧几里得空间进行的,而是在更高维的电子势能面(potential energy surface)的因果联系。因此,现有的鉴于 SE(3) GNN 的分散模型会因为破坏对称性而存在问题。
图示:「对象感知」SE(3) 等变及其鉴于 SE(3) 等变 GNN 的实现。(来源:论文)
解决方案
麻省理工学院的团队根据以上问题开发了一种新的方法,叫做「OA-ReactDiff」。该团队将 SE(3) 等变 GNN 调整为「对象感知」模拟,即在保持单个对象的 SE(3) 等变性的同时,保持它们在欧几里得空间中独立的相互作用。
「分散模型属于生成式人工智能领域,通过随机过程捕捉简单分布与复杂分布之间的转化。一旦模型学到了这三种布局如何共存的基本分布,我们可以给它新的回响反映物和生成物,它将尝试生成与这些回响反映物和生成物相对应的过渡态布局。」段辰儒博士说。
图示:用于生成份子系统采样的等变分散模型 (EDM) 概述。(来源:论文)
在训练集中,研讨职员使用量子盘算方法得到了 9,000 种不同化学回响反映的回响反映物、过渡态和生成物布局。并在约 1,000 个之前未见过的回响反映上进行了测试,要求它为每个过渡态生成 40 种能够的布局。
在盘算的过程中通过引入「推荐模型」来预测哪个过渡态的置信度最高。在此基础上进一步结合不确定性估计,研讨职员在仅对 14% 模型不确定性最高的回响反映执行量子化学盘算,就实现了 2.6 kcal/mol 的平均绝对误差。这使得在使用 OA-ReactDiff 估算 300°C 的回响反映速率时,可以得到一个数量级误差范围内的结果。OA-ReactDiff 生成的布局与量子化学盘算得到的过渡态布局相比,均方根误差 (RMSD) 在 0.06 埃(千分之六纳米)范围内,这个误差量级在肉眼中几乎不可区分。
更令人欣喜的是 OA-ReactDiff 生成一个过渡态布局只需要 6 秒,相比于量子化学盘算至少加速了 1000 倍。由此,该算法成功实现了对 TS 布局和回响反映能垒盘算的极高准确性和快速性。
图示:评估 OA-ReactDiff 生成的 TS 布局与真实 TS 布局的布局相似性。(来源:论文)
Kulik 教授也感慨道,「之前我们很难想象在一念之间就能生成数千个过渡态。」
图示:OA-ReactDiff plus 推荐 TS 布局的能量性能。(来源:论文)
未来期许
这项工作是 3D 分散模型首次在化学回响反映中的亮相。尽管研讨职员仅对较小数量原子的化合物(<25 个原子)的回响反映上进行了模拟训练,但他们发现整个模型也能够对较大份子的回响反映进行准确预测。
Kulik教授说:「即使你面对更大的系统甚至是酶催化的系统,你仍然可以得到关于原子最有能够重新排列的不同方式」。
研讨职员现在计划加入其他组分来扩展他们的模型,比如催化剂。借助生成式 AI 的随机性,OA-ReactDiff 可以摸索到意料之外的化学回响反映。这个特点弥补了现有鉴于化学的直觉回响反映摸索框架,帮助建立更加完整的化学回响反映网络,助力研发设想新型催化材料。这方面的研讨可以帮助他们加速发掘特定回响反映的新的催化剂。此外,他们提出的算法对于开发药品、燃料或其他有用化合物的新过程能够非常有用,尤其是当合成涉及许多化学步骤时。
「传统上,所有这些盘算都是用量子化学进行的,而现在我们能够用更快的生成模型替代量子化学。」段辰儒博士说。
研讨职员也表示化学回响反映是化学研讨的核心。除了催化剂设想这种偏「工业型」的能够,OA-ReactDiff 还有许多有意思的潜在应用,如摸索能够发生在其他行星上的气体间相互作用,模拟地球早期生命演化过程中发生的回响反映过程等等。