准确率达100%,「人机交互」机器学习,驱动有机反应精确原子映射研究

编辑 | X原子到原子映射(Atom-to-atom Mapping,AAM)是识别化学反应前后分子中每个原子位置的任务,这对于理解反应机理非常重要。近年来,越来越多的机器学习模型用于逆合成和反应结果预测,这些模型的质量高度依赖于反应数据集中 AAM 的质量。虽然有一些算法使用图论或无监督学习来标记反应数据集的 AAM,但现有方法是基于子结构 alignments 而不是化学知识来映射原子。在此,来自韩国首尔大学(Seoul National University)和韩国科学技术院(KAIST)的研究团队,提出了一

图片

编辑 | X

原子到原子映射(Atom-to-atom Mapping,AAM)是识别化学反应前后分子中每个原子位置的任务,这对于理解反应机理非常重要。

近年来,越来越多的机器学习模型用于逆合成和反应结果预测,这些模型的质量高度依赖于反应数据集中 AAM 的质量。虽然有一些算法使用图论或无监督学习来标记反应数据集的 AAM,但现有方法是基于子结构 alignments 而不是化学知识来映射原子。

在此,来自韩国首尔大学(Seoul National University)和韩国科学技术院(KAIST)的研究团队,提出了一种 ML 模型——LocalMapper,可通过人机回圈(human-in-the-loop)机器学习从化学家标记的反应中学习正确的 AAM。

研究表明,LocalMapper 通过仅从整个数据集中 2% 的人类标记反应中学习,就能以 98.5% 的校准精度预测 50 K 反应的 AAM。更重要的是,LocalMapper 给出的可信预测覆盖了 50 K 反应中的 97%,对 3,000 个随机采样的反应显示出 100% 的准确率。

在分布外(Out-of-distribution,OOD)实验中,LocalMapper 性能优于其他现有方法。研究人员期望 LocalMapper 可用于生成更精确的反应 AAM,并提高未来基于 ML 的反应预测模型的质量。

相关研究以《Precise atom-to-atom mapping for organic reactions via human-in-the-loop machine learning》为题,于 2024 年 3 月 13 日发布在《Nature Communications》上。

图片

论文链接:https://www.nature.com/articles/s41467-024-46364-y

AAM 在化学研究中的重要性

原子到原子映射 (AAM) 通过识别反应物原子和产物原子之间的一对一映射,在准备反应数据中发挥着至关重要的作用。高质量的 AAM 可以快速识别给定化学反应的反应中心,这对于许多已开发的化学反应分析和预测方法至关重要。

AAM 广泛使用的应用之一是构建缩合反应图 (CGR)。此外,AAM 还可以自动识别反应中心并从数据库中提取反应模板,用于预测反应结果和单步逆合成机器学习模型。由于这些应用高度依赖于反应数据的 AAM,因此 AAM 的质量极大地影响机器学习模型的性能。随着下游模型数量的不断增加,为反应数据集构建高质量的 AAM 成为确保反应预测模型质量的紧迫任务。

现有的 AAM 识别方法通常可分为基于规则的和基于 ML 的方法。尽管比以前的方法准确度更高,但 AAM 需要 100% 的完美准确度,因为反应数据中的缺陷将在下游反应预测模型中被放大。然而,目前还没有可靠的方法来检测可能错误预测的 AAM,这使得预测中的错误难以识别。

此外,尽管现有的基于 ML 的无监督方法比基于规则的方法要快得多,并且适用于更广泛的反应,但在不知道正确的 AAM 的情况下训练模型可能会导致意外错误,即使对于简单的反应也是如此。

三大重要突破

在此,研究人员通过 human-in-the-loop 机器学习提出了一种精确的基于图的 AAM 模型,名为 LocalMapper。

该研究的重要突破体现在以下三个方面:

所提出的基于知识的不确定性识别允许对 ML 模型预测进行快速化学感知验证,为 3,000 个随机采样的置信预测生成 100% 正确的 AAM。

开发的模型 LocalMapper 通过从人机循环机器学习生成的高质量训练数据中学习经化学家验证的 AAM,实现了最先进的 AAM 预测精度。与现有的基于 ML 的模型 RXNMapper 和 GraphormerMapper 相比,仅标记 2% 的反应,显示出更好的预测精度。

在分布外实验中,LocalMapper 比两个现有的基于 ML 的 AAM 模型显示出良好的预测精度,同时保持置信预测的 100% 准确度。

人机循环机器学习框架

为了训练 LocalMapper,研究人员手动标记每个反应的 AAM,以保证训练模型的反应中 AAM 的正确性。由于手动标记化学反应的 AAM 非常耗时(每个反应通常超过一分钟),因此在大型数据集中标记大部分反应是不切实际的。因此,引入主动学习来仅标记一小部分代表性反应。

整个工作流程可以分解为以下 5 个步骤:

随机采样:为了初始化主动学习过程,从未映射的反应数据集中随机采样 k 个反应,其中 k 是人类专家一次性标记 AAM 的一个可承受的小数字。

标签和训练:接下来,手动标记采样的 k 个反应的 AAM,并使用这些反应来训练所提出的基于图的模型 LocalMapper,其结构类似于逆合成模型 LocalRetro 和反应结果预测模型 LocalTransform。从人类绘制的反应中提取的反应模板用于更新模板库,该模板库将用于后续的不确定性识别。

AAM 预测:接下来,使用 LocalMapper 来预测数据集中所有反应的反应物和产物之间的原子相关性。根据 LocalMapper 预测的原子-原子相关性,按照 Schwaller 等人引入的原子映射程序生成每个反应的 AAM。

置信度识别:对于每个预测反应的 AAM,提取反应模板来表示其反应模式。如果提取的反应模板存在于当前模板库中,则该反应预测的 AAM 集合被认为是置信预测,否则是不确定预测。

主动采样:对于从不确定预测中提取的每个唯一模板,从共享最多反应的模板开始对一个反应进行采样,直到采样到 k 个反应。然后,这些反应由人类化学家标记,并在下一次迭代中用于训练模型,重复步骤 2。

从第二次迭代开始,研究人员使用半监督学习来训练模型,从每个唯一验证的反应模板的置信预测中采样 100 个反应,以提高模型的稳健性。这些采样反应按 9:1 的比例分为训练集和验证集,以防止过度拟合。

图片

图 1:在生成逆合成反应模板和基于化学知识推导反应机制方面,获取正确的原子间映射 (AAM) 的重要性。(来源:论文)

LocalMapper

为了预测反应中反应物和产物之间的 AAM,研究人员设计了一个基于图的模型,称为 LocalMapper,以了解反应物中的每个原子重新定位到产物中的原子的概率。

与之前的逆合成模型 LocalRetro 和反应结果预测 LocalTransform 类似,使用图来表示分子,以原子为节点,键为边,并通过反应中原子的局部和全局特征来学习 AAM 通过消息传递神经网络和注意力机制。

图片

图 2:使用所提出的模型 LocalMapper 进行 AAM 的人机循环机器学习的总体方案。(来源:论文)

首先,研究人员使用 3 个消息传递层对每个原子的局部化学环境进行编码,并通过 3 个多头交叉注意块根据反应物的原子特征更新产物中的原子特征。在反应物和产物之间的每个原子的特征充分传达后,通过单头注意力块计算产物和反应物之间的 AAM 相关性。

使用 Softmax 函数对注意力分数进行归一化后,估计反应物中的每个原子与产物中的每个原子是相同原子的概率。按照 RXNMapper 中引入的原子映射程序,使用生成的概率从最高概率到最低概率识别从产物到反应物的 AAM。

100% 预测准确率

总之,研究人员提出了一种基于图的 ML 模型 LocalMapper,以通过人机循环机器学习精确识别大型反应数据集的 AAM。通过利用专业知识手动标记少量反应数据,训练了人机循环机器学习模型,以精确、自动地标记大量具有相似反应规则的反应。

表 1:手动检查反应 AAM 前后,RXNMapper、GraphormerMapper 和 LocalMapper 在 USPTO-50K 数据集上的 AMM 结果。(来源:论文)

图片

对于公开可用的 USPTO-50K 数据集,该模型仅通过学习 2% 的化学家标记反应,就能以 98.5% 的准确率预测 AAM。

表 2:RXNMapper、GraphormerMapper 和 LocalMapper 在四个不同源上检查的手动映射反应的 AMM 结果。(来源:论文)

图片

更重要的是,LocalMapper 自信预测的数据集中 97% 的反应的 AAM,表现出 100% 的预测准确率。并且在不同的分布外测试集中也观察到类似的结果。

研究人员期望所提出的 LocalMapper 可用于为未来的下游反应预测模型提供精确的反应 AAM,并有利于化学界了解更多有关反应数据集的统计见解。

GitHub 地址:https://github.com/snu-micc/LocalMapper

注:封面来自网络

相关资讯

使用超图学习梳理出基因组规模代谢网络中缺失的反应

编辑 | 白菜叶基因组规模代谢模型 (GEM) 是预测生物体细胞代谢和生理状态的强大工具。然而,由于学界对代谢过程的了解不完善,即使是精心设计的 GEM 也存在知识缺口。现有的间隙填充方法通常需要表型数据作为输入,来梳理缺失的反应。在实验数据可用之前,科学家仍然缺乏一种快速准确地填补代谢网络缺口的计算方法。斯隆凯特琳癌症中心(Memorial Sloan Kettering Cancer Center)的研究人员提出了一种基于深度学习的方法——CHEbyshev Spectral HyperlInk pREdict

发现、合成并表征303个新分子,MIT团队开发机器学习驱动的闭环自主分子发现平台

编辑 | X传统意义上,发现所需特性的分子过程一直是由手动实验、化学家的直觉以及对机制和第一原理的理解推动的。随着化学家越来越多地使用自动化设备和预测合成算法,自主研究设备越来越接近实现。近日,来自 MIT 的研究人员开发了由集成机器学习工具驱动的闭环自主分子发现平台,以加速具有所需特性的分子的设计。无需手动实验即可探索化学空间并利用已知的化学结构。在两个案例研究中,该平台尝试了 3000 多个反应,其中 1000 多个产生了预测的反应产物,提出、合成并表征了 303 种未报道的染料样分子。该研究以《Autonom

AI炼金术革新化学:MIT学者使用生成式AI,六秒生成新化学反应

编辑 | 凯霞从「等价交换」的远古炼金术开始,化学一直是一门了解和控制物质间相互作用的学科。人们经过不断解锁和利用新的化学反应,研发出了一系列新材料。在为人们生活提供便利的同时也提升了能量利用效率,促进可持续发展。一个基元化学反应由反应物,过渡态(TS),生成物三者构成。过渡态是化学中至关重要的 3D 结构,被广泛用于理解化学反应机制、估算反应能垒以及探索庞大的反应网络。然而,由于其在反应过程中存在的时间极短(飞秒量级),实验中几乎不可能分离和表征过渡态。常规情况下,人们使用量子化学的计算方法,通过反复求解薛定谔方