准确率 >98%，基于电子密度的 GPT 用于化学钻研，登 Nature 子刊

编辑 | 紫罗可合成的份子化学空间是巨大的。要想有效地驾驭这一领域，需要基于计算的筛选技术，如深度学习技术，以快速跟踪感兴趣的化合物发觉。然而，利用算法从事化学发觉需要将份子结构变换为计算机可用的数字透露表现形式，并开发基于这些透露表现形式的算法来生成新的份子结构。近日，来自英国格拉斯哥大学（University of Glasgow）的钻研人员，提出了一种基于电子密度训练的机器学习模型，用于生产主客体 binders。这些以简化份子线性输入规范 (SMILES) 格式读出，准确率 98%，从而能够在二维上对份子从事完整的

编辑 | 紫罗

可合成的份子化学空间是巨大的。要想有效地驾驭这一领域，需要基于计算的筛选技术，如深度学习技术，以快速跟踪感兴趣的化合物发觉。

然而，利用算法从事化学发觉需要将份子结构变换为计算机可用的数字透露表现形式，并开发基于这些透露表现形式的算法来生成新的份子结构。

近日，来自英国格拉斯哥大学（University of Glasgow）的钻研人员，提出了一种基于电子密度训练的机器学习模型，用于生产主客体 binders。这些以简化份子线性输入规范 (SMILES) 格式读出，准确率 >98%，从而能够在二维上对份子从事完整的表征。

机器学习模型利用变分自编码器生成主客体体系的电子密度和静电势的三维透露表现，然后利用这些透露表现通过梯度下降来优化客体的生成。最后，利用 Transformer 将客体变换为 SMILES。

模型成功地应用于已建立的份子主体体系，葫芦脲和金属无机笼，结果发觉了 9 个先前考证的 CB[6] 客体和 7 个未报告的客体，并发觉了 4 个未报告的准确率 >98%，基于电子密度的 GPT 用于化学钻研，登 Nature 子刊客体。

该钻研以《Electron density-based GPT for optimization and suggestion of host–guest binders》为题，于 2024 年 3 月 8 日发表在《Nature Computational Science》上。

准确率 >98%，基于电子密度的 GPT 用于化学钻研，登 Nature 子刊

论文链接：https://www.nature.com/articles/s43588-024-00602-x

当前主客体化学钻研费力且昂贵

字符串，例如 SMILES，份子以「单词」透露表现，例如「C1C=C1」（环丙烯），是最广泛的份子数字透露表现形式之一。利用最先进的自然语言处理，这些透露表现与 AI 技术直接兼容，例如循环神经网络或 Transformer 模型。

将份子透露表现为 3D 体积（volume）的优点是可以应用最新的 AI 技术，例如卷积神经网络。到目前为止，3D 体积作为份子描述符的大多数应用都集中在预测特性或从头药物设计上。然而，由于缺乏有效的方法将这些体积与清晰的份子结构相关联，目前利用 3D 体积作为份子描述符受到阻碍。

在过去的 40 年里，由于份子 containers（中空无机份子或中空超份子结构）倾向于通过将份子与空腔中的体相隔离来改变份子的化学和物理性质，因此主客体体系得到了越来越多的钻研。主客体体系具有广泛的应用，从催化到生物医学工程、材料科学和反应份子的稳定。

葫芦脲（CB[n]）和金属无机笼是最成功的份子 containers 设计之一。尽管主客体化学已经取得了显著的成就，但现有体系中未报道的客体的发觉或新的主客体体系的优化，仍然是一个费力且昂贵的迭代过程，阻碍了科学进步的步伐。

一种基于电子密度训练的机器学习模型

在此，钻研证明，将主体份子透露表现为 3D 体积（即，用静电势修饰的电子密度）可以通过计算机辅助发觉该主体的客体，而无需了解主体的化学结构之外的主客体体系。

在此过程中，钻研人员建立了一个 Transformer 模型，可以通过训练将 3D 体积份子描述符有效地变换为 SMILES 透露表现，从而生成专业化学家可用的份子结构。

钻研还发觉，通过用静电势数据修饰份子的电子密度，可以将份子有效地透露表现为 3D 体积，并且这两个特征足以通过利用自回归采样方案优化 3D 描述符之间的体积形状和电荷相互作用来发觉主体的客体份子。

准确率 >98%，基于电子密度的 GPT 用于化学钻研，登 Nature 子刊

图示：利用 Transformer 模型将电子密度变换为 SMILES 透露表现，然后通过梯度下降优化目标主体的客体。（来源：论文）

Transformer 模型完美地预测了其 SMILES 透露表现，准确度为 98.125%。单个 token 的预测准确率为 99.114%。Transformer 的解码器也可以被隔离为纯生成模型，如 GPT。

事务过程概述

计算机辅助发觉葫芦脲 CB[6] 和金属无机笼准确率 >98%，基于电子密度的 GPT 用于化学钻研，登 Nature 子刊的尝试考证客体需要一个双层事务过程。首先，设计了一个计算机事务过程来为这两个主体生成潜伏客体份子的虚拟库。然后建立了体外事务过程，其中包括由化学专家从这些虚拟库中选择最有希望的客体候选物从事尝试尝试。

准确率 >98%，基于电子密度的 GPT 用于化学钻研，登 Nature 子刊

图示：通过电子密度体积透露表现发觉新型客体份子。（来源：论文）

CB[6] 和准确率 >98%，基于电子密度的 GPT 用于化学钻研，登 Nature 子刊客体份子的计算机生成是通过上图所示的事务过程实现的，该事务过程包括以下步骤:

（1）3D 电子密度体积训练集源自公开的 QM9 数据集中的份子。然后，通过利用变分自编码器（VAE）对这个 3D 电子密度体积训练集从事建模，创建了一个

「份子生成器」，从而允许生成超出 QM9 数据集派生的 3D 电子密度体积。该 VAE 份子生成器的事务原理是将 3D 电子密度体积编码到一维 (1D) 潜伏空间中，然后通过从该 1D 潜伏空间从事解码来生成与份子相对应的 3D 电子密度体积。有趣的是，这种方法只能产生化学上合理的份子。

（2）VAE 份子生成器和梯度下降优化算法用于为给定的主体份子生成客体份子库（以 3D 电子密度体积的形式）。客体份子是通过最小化主体和客体电子密度之间的重叠，同时优化它们的静电相互作用而产生的。

（3）由于人类操作员将 3D 电子密度体积变换为化学可解释的结构可能具有挑战性，因此训练了 Transformer 模型将这些体积变换为 SMILES 透露表现，以一种更容易被专业化学家理解的格式捕获描述份子所需的所有必要信息。在通过计算机模拟生成 CB[6] 和准确率 >98%，基于电子密度的 GPT 用于化学钻研，登 Nature 子刊的潜伏客体份子后，建立了体外事务过程来对最有希望的候选份子从事尝试尝试。

下面描述了所利用的尝试过程。

（1）由于其计算机事务过程生成的 CB[6] 和准确率 >98%，基于电子密度的 GPT 用于化学钻研，登 Nature 子刊的客体由化学专家从事分类以从事尝试尝试。有希望从事尝试的客体是根据其与 CB[6] 或的已知客体的结构相似性、专业化学家的直觉及其商业可用性来选择的。

（2）采用直接准确率 >98%，基于电子密度的 GPT 用于化学钻研，登 Nature 子刊滴定法测定 CB[6] 或的亲和力。值得注意的是，在计算机中生成的客体包含先前已知与主体（或密切相关）结合的份子和无视专家直觉的份子的混合物。

两个常见主客体体系的尝试考证

钻研人员通过尝试考证了其事务过程，为两个两个常见的主客体体系：葫芦脲（CB[n]）和金属无机笼，成了文献考证和未报告的客体。

算法为 CB[6] 生成了 9 个先前已知的客体。还确定了 CB[6] 的 7 个潜伏新客体，化学专家认为值得从事尝试尝试。CB[6] 对这些新客体的亲和力通过在 HCO2H/H2O 1:1v/v 中直接准确率 >98%，基于电子密度的 GPT 用于化学钻研，登 Nature 子刊滴定来评估。

在所有 7 种情况下，都观察到主客体体系的一组信号，表明该体系在 NMR 时间尺度上从事快速交换。络合后，客体份子的脂肪链共振向上场移动，表明它们被封装在 CB[6] 腔内。发觉准确率 >98%，基于电子密度的 GPT 用于化学钻研，登 Nature 子刊与 CB[6] 的缔合常数遵循先前建立的趋势，范围从 13.5 M^−1 到 5,470 M^−1。

准确率 >98%，基于电子密度的 GPT 用于化学钻研，登 Nature 子刊

图示：CB[6] 的优化和先前已知的客体以及准确率 >98%，基于电子密度的 GPT 用于化学钻研，登 Nature 子刊的优化客体。（来源：论文）

对于准确率 >98%，基于电子密度的 GPT 用于化学钻研，登 Nature 子刊，优化算法仅生成未知的客体份子，四种潜伏的未报告客体与 [Pd214](BArF)4 之间的结合强度通过 CD2Cl2 中的直接滴定从事尝试。在所有四种情况中，客体对 [Pd214](BArF)4 的亲和力与先前报道的 CD2Cl2 中「小型中性客体」的亲和力较低范围一致（Ka 从 44 M^-1 到 529 M^−1）。