准确率达100%,「人机交互」机械进修,驱动有机反映正确原子映照钻研

编辑 | X原子到原子映照(Atom-to-atom Mapping,AAM)是辨认化学反映前后分子中每一个原子位置的任务,这对于理解反映机理非常重要。近年来,越来越多的机械进修模型用于逆合成和反映结果展望,这些模型的质量高度依赖于反映数据集结 AAM 的质量。虽然有一些算法利用图论或无监督进修来标识表记标帜反映数据集的 AAM,但现有方式是鉴于子结构 alignments 而不是化学知识来映照原子。在此,来自韩国首尔大学(Seoul National University)和韩国科学技术院(KAIST)的钻研团队,提出了一

准确率达100%,「人机交互」机械进修,驱动有机反映正确原子映照钻研

编辑 | X

原子到原子映照(Atom-to-atom Mapping,AAM)是辨认化学反映前后分子中每一个原子位置的任务,这对于理解反映机理非常重要。

近年来,越来越多的机械进修模型用于逆合成和反映结果展望,这些模型的质量高度依赖于反映数据集结 AAM 的质量。虽然有一些算法利用图论或无监督进修来标识表记标帜反映数据集的 AAM,但现有方式是鉴于子结构 alignments 而不是化学知识来映照原子。

在此,来自韩国首尔大学(Seoul National University)和韩国科学技术院(KAIST)的钻研团队,提出了一种 ML 模型——LocalMapper,可通过人机回圈(human-in-the-loop)机械进修从化学家标识表记标帜的反映中进修正确的 AAM。

钻研表明,LocalMapper 通过仅从整个数据集结 2% 的人类标识表记标帜反映中进修,就能以 98.5% 的校准精度展望 50 K 反映的 AAM。更重要的是,LocalMapper 给出的可信展望覆盖了 50 K 反映中的 97%,对 3,000 个随机采样的反映显示出 100% 的准确率。

在分布外(Out-of-distribution,OOD)实验中,LocalMapper 性能优于其他现有方式。钻研职员期望 LocalMapper 可用于生成更正确的反映 AAM,并提高未来鉴于 ML 的反映展望模型的质量。

相关钻研以《Precise atom-to-atom mapping for organic reactions via human-in-the-loop machine learning》为题,于 2024 年 3 月 13 日发布在《Nature Communications》上。

准确率达100%,「人机交互」机械进修,驱动有机反映正确原子映照钻研

论文链接:https://www.nature.com/articles/s41467-024-46364-y

AAM 在化学钻研中的重要性

原子到原子映照 (AAM) 通过辨认反映物原子和产品原子之间的一对一映照,在准备反映数据中发挥着至关重要的作用。高质量的 AAM 可以快速辨认给定化学反映的反映中心,这对于许多已开发的化学反映分析和展望方式至关重要。

AAM 广泛利用的应用之一是构建缩合反映图 (CGR)。此外,AAM 还可以自动辨认反映中心并从数据库中提炼反映模板,用于展望反映结果和单步逆合成机械进修模型。由于这些应用高度依赖于反映数据的 AAM,因此 AAM 的质量极大地影响机械进修模型的性能。随着下游模型数量的不断增加,为反映数据集构建高质量的 AAM 成为确保反映展望模型质量的紧迫任务。

现有的 AAM 辨认方式通常可分为鉴于规则的和鉴于 ML 的方式。尽管比以前的方式准确度更高,但 AAM 需要 100% 的完美准确度,因为反映数据中的缺陷将在下游反映展望模型中被放大。然而,目前还没有可靠的方式来检测可能错误展望的 AAM,这使得展望中的错误难以辨认。

此外,尽管现有的鉴于 ML 的无监督方式比鉴于规则的方式要快得多,并且适用于更广泛的反映,但在不知道正确的 AAM 的情况下训练模型可能会导致意外错误,即使对于简单的反映也是如此。

三大重要突破

在此,钻研职员通过 human-in-the-loop 机械进修提出了一种正确的鉴于图的 AAM 模型,名为 LocalMapper。

该钻研的重要突破体现在以下三个方面:

所提出的鉴于知识的不确定性辨认允许对 ML 模型展望进行快速化学感知验证,为 3,000 个随机采样的相信展望生成 100% 正确的 AAM。

开发的模型 LocalMapper 通过从人机循环机械进修生成的高质量训练数据中进修经化学家验证的 AAM,实现了最先进的 AAM 展望精度。与现有的鉴于 ML 的模型 RXNMapper 和 GraphormerMapper 相比,仅标识表记标帜 2% 的反映,显示出更好的展望精度。

在分布外实验中,LocalMapper 比两个现有的鉴于 ML 的 AAM 模型显示出良好的展望精度,同时保持相信展望的 100% 准确度。

人机循环机械进修框架

为了训练 LocalMapper,钻研职员手动标识表记标帜每一个反映的 AAM,以保证训练模型的反映中 AAM 的正确性。由于手动标识表记标帜化学反映的 AAM 非常耗时(每一个反映通常超过一分钟),因此在大型数据集结标识表记标帜大部分反映是不切实际的。因此,引入主动进修来仅标识表记标帜一小部分代表性反映。

整个工作流程可以分解为以下 5 个步骤:

随机采样:为了初始化主动进修过程,从未映照的反映数据集结随机采样 k 个反映,其中 k 是人类专家一次性标识表记标帜 AAM 的一个可承受的小数字。

标签和训练:接下来,手动标识表记标帜采样的 k 个反映的 AAM,并利用这些反映来训练所提出的鉴于图的模型 LocalMapper,其结构类似于逆合成模型 LocalRetro 和反映结果展望模型 LocalTransform。从人类绘制的反映中提炼的反映模板用于更新模板库,该模板库将用于后续的不确定性辨认。

AAM 展望:接下来,利用 LocalMapper 来展望数据集结所有反映的反映物和产品之间的原子相关性。根据 LocalMapper 展望的原子-原子相关性,按照 Schwaller 等人引入的原子映照程序生成每一个反映的 AAM。

相信度辨认:对于每一个展望反映的 AAM,提炼反映模板来表示其反映模式。如果提炼的反映模板存在于当前模板库中,则该反映展望的 AAM 集合被认为是相信展望,否则是不确定展望。

主动采样:对于从不确定展望中提炼的每一个唯一模板,从共享最多反映的模板开始对一个反映进行采样,直到采样到 k 个反映。然后,这些反映由人类化学家标识表记标帜,并在下一次迭代中用于训练模型,重复步骤 2。

从第二次迭代开始,钻研职员利用半监督进修来训练模型,从每一个唯一验证的反映模板的相信展望中采样 100 个反映,以提高模型的稳健性。这些采样反映按 9:1 的比例分为训练集和验证集,以防止过度拟合。

准确率达100%,「人机交互」机械进修,驱动有机反映正确原子映照钻研

图 1:在生成逆合成反映模板和鉴于化学知识推导反映机制方面,获取正确的原子间映照 (AAM) 的重要性。(来源:论文)

LocalMapper

为了展望反映中反映物和产品之间的 AAM,钻研职员设计了一个鉴于图的模型,称为 LocalMapper,以了解反映物中的每一个原子重新定位到产品中的原子的概率。

与之前的逆合成模型 LocalRetro 和反映结果展望 LocalTransform 类似,利用图来表示分子,以原子为节点,键为边,并通过反映中原子的局部和全局特征来进修 AAM 通过消息传递神经网络和注意力机制。

准确率达100%,「人机交互」机械进修,驱动有机反映正确原子映照钻研

图 2:利用所提出的模型 LocalMapper 进行 AAM 的人机循环机械进修的总体方案。(来源:论文)

首先,钻研职员利用 3 个消息传递层对每一个原子的局部化学环境进行编码,并通过 3 个多头交叉注意块根据反映物的原子特征更新产品中的原子特征。在反映物和产品之间的每一个原子的特征充分传达后,通过单头注意力块计算产品和反映物之间的 AAM 相关性。

利用 Softmax 函数对注意力分数进行归一化后,估计反映物中的每一个原子与产品中的每一个原子是相同原子的概率。按照 RXNMapper 中引入的原子映照程序,利用生成的概率从最高概率到最低概率辨认从产品到反映物的 AAM。

100% 展望准确率

总之,钻研职员提出了一种鉴于图的 ML 模型 LocalMapper,以通过人机循环机械进修正确辨认大型反映数据集的 AAM。通过利用专业知识手动标识表记标帜少量反映数据,训练了人机循环机械进修模型,以正确、自动地标识表记标帜大量具有相似反映规则的反映。

表 1:手动检查反映 AAM 前后,RXNMapper、GraphormerMapper 和 LocalMapper 在 USPTO-50K 数据集上的 AMM 结果。(来源:论文)

准确率达100%,「人机交互」机械进修,驱动有机反映正确原子映照钻研

对于公开可用的 USPTO-50K 数据集,该模型仅通过进修 2% 的化学家标识表记标帜反映,就能以 98.5% 的准确率展望 AAM。

表 2:RXNMapper、GraphormerMapper 和 LocalMapper 在四个不同源上检查的手动映照反映的 AMM 结果。(来源:论文)

准确率达100%,「人机交互」机械进修,驱动有机反映正确原子映照钻研

更重要的是,LocalMapper 自信展望的数据集结 97% 的反映的 AAM,表现出 100% 的展望准确率。并且在不同的分布外测试集结也观察到类似的结果。

钻研职员期望所提出的 LocalMapper 可用于为未来的下游反映展望模型提供正确的反映 AAM,并有利于化学界了解更多有关反映数据集的统计见解。

GitHub 地址:https://github.com/snu-micc/LocalMapper

注:封面来自网络

给TA打赏
共{{data.count}}人
人已打赏
应用

ICML 2024 AI for Math Workshop 征稿和挑战赛启动!

2024-4-3 16:36:00

应用

第一波!2024年4月精选实用安排东西合集

2024-4-4 8:28:12

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索