弥合化学回响反映预训练和条件份子生成之间的差距，北大「统一」模型

编辑 | 紫罗化学回响反映是药物设计和有机化学钻研的基础。钻研界越来越需要一种可以或许有效捕捉化学回响反映基本规则的大规模深度进修框架。近日，来自北京大学和望石智慧的钻研团队提出了一种新要领来弥合鉴于回响反映的份子预训练和生成任意之间的差距。受有机化学机制的启发，钻研人员开发了一个新的预训练框架，使其可以或许将归纳偏差纳入模型中。所提框架在执行拥有挑战性的下游任意中取得了最先进的结果。通过掌握化学知识，生成框架克服了当前依赖少量回响反映模板的份子生成模型的局限性。在大量的实验中，模型生成了高质量的可分解药物样结构。总的来说，该钻研向各种基

编辑 | 紫罗

化学回响反映是药物设计和有机化学钻研的基础。钻研界越来越需要一种可以或许有效捕捉化学回响反映基本规则的大规模深度进修框架。

近日，来自北京大学和望石智慧的钻研团队提出了一种新要领来弥合鉴于回响反映的份子预训练和生成任意之间的差距。

受有机化学机制的启发，钻研人员开发了一个新的预训练框架，使其可以或许将归纳偏差纳入模型中。所提框架在执行拥有挑战性的下游任意中取得了最先进的结果。通过掌握化学知识，生成框架克服了当前依赖少量回响反映模板的份子生成模型的局限性。在大量的实验中，模型生成了高质量的可分解药物样结构。

总的来说，该钻研向各种鉴于回响反映的运用程序的大规模深度进修框架迈出了重要一步。

该钻研以《Bridging the gap between chemical reaction pretraining and conditional molecule generation with a unified model》为题，于 2023 年 12 月 5 日发布在《Nature Machine Intelligence》上。

弥合化学回响反映预训练和条件份子生成之间的差距，北大「统一」模型

论文链接：https://www.nature.com/articles/s42256-023-00764-9

深度进修模型已在众多科学钻研领域得到运用。预训练框架有助于新任意的无缝集成，从而加快建模过程，特别是对于标记数据有限的场景。

化学回响反映是药物设计和有机化学钻研的基础。目前，数据挖掘钻研和运用已经使深度进修模型可以或许运用于化学回响反映。鉴于这些数据，已经有许多数据驱动的钻研深入钻研化学回响反映的表征进修。

表征进修是指从数据中自动进修有用的特征，然后将其用于各种下游任意。现有要领忽略了有机化学的基本理论，限制了其本能。

鉴于化学回响反映的份子生成

除了回响反映分类任意之外，鉴于化学回响反映的份子生成也是一个重要的运用。早期的钻研总是采用鉴于模板的逐步份子生成策略。

这些鉴于模板的要领在很大程度上依赖于预约义的构建模块和回响反映，这缩小了可访问的化学空间。在回响反映产品预测领域也发现了类似的趋势，其中鉴于模板的要领不能外推到复杂的回响反映；这个问题可以通过使用无模板要领来解决。

在鉴于回响反映的份子生成任意中，无模板要领也表现出了优于鉴于模板要领的泛化优势。然而，现有的无模板份子生成要领只能鉴于预约义的回响反映物库生成份子。除此之外，对于药物设计中的先导化合物或先导化合物优化阶段，利用化学回响反映作为编辑工具来修改给定的结构是更有利的。生成的化学库将重点关注可以用更少的回响反映步骤分解的化学空间的子集。

一个新、全面的化学回响反映深度进修框架

在此，钻研人员提出了一个新的、全面的化学回响反映深度进修框架，称为 Uni-RXN。旨在解决两个基本任意：自监督表征进修和条件生成建模。

弥合化学回响反映预训练和条件份子生成之间的差距，北大「统一」模型

图示：Uni-RXN 的组成和要领。（起源：论文）

与现有要领不同，钻研人员提出了一套专门针对化学回响反映精心设计的自监督任意。这些任意包括回响反映中心预测、主回响反映物与子回响反映物配对以及回响反映物-产品配对。在对拥有挑战性的回响反映任意的广泛评估中，Uni-RXN 要领超越了最先进的水平，证明了其有效捕捉化学回响反映领域知识的能力。所获得的有希望的结果为广泛的下游运用铺平了道路。

通过有效捕捉化学规则，Uni-RXN 非常适合生成任意。与依赖于从预约义回响反映物库中选择片段的传统要领不同，Uni-RXN 将份子结构作为输入条件并生成相应回响反映物的表示，同时保持回响反映内的排列不变性。利用密集向量相似性搜索包的强大功能，Uni-RXN 可以或许从大型回响反映物和试剂库中高效检索回响反映物。随后，采用回响反映预测模型来生成产品输出。

与仅探索化学空间的有限子集的鉴于模板的要领相比，Uni-RXN 在生成更广泛的可分解药物样结构方面表现出卓越的本能。这一特点使其特别适合虚拟 library 枚举，并得到全面统计分析和案例钻研的支持。

Uni-RXN 要领拥有多种优势，可以或许为拥有挑战性的化学回响反映分类任意派生丰富的表示。Uni-RXN 大幅优于其他基线模型，在每类仅提供 4 个数据点的情况下实现了 58.7% 的准确率。

表 1：化学回响反映分类的准确度。（起源：论文）

弥合化学回响反映预训练和条件份子生成之间的差距，北大「统一」模型