受 ChatGPT 启发，结合 Transformer 和 RL-MCTS 进行从头药物设计

编辑 | 萝卜皮通过从头药物设计发现新型治疗化合物是药物研究领域的一项关键挑战。传统的药物发现方法通常资源密集且耗时，这促使科学家探索利用深度学习和强化学习技术力量的创新方法。在这里，美国查普曼大学（Chapman University）的研究人员开发了一种称为 drugAI 的新型药物设计方法，该方法利用编码器-解码器 Transformer 架构与通过蒙特卡罗树搜索（RL-MCTS）进行的强化学习来加快药物发现过程，同时确保生产具有药物样特性和对其靶标具有强结合亲和力的有效小分子。与两种现有的基准方法相比，dr

编辑 | 萝卜皮

通过从头药物设计发现新型治疗化合物是药物研究领域的一项关键挑战。传统的药物发现方法通常资源密集且耗时，这促使科学家探索利用深度学习和强化学习技术力量的创新方法。

在这里，美国查普曼大学（Chapman University）的研究人员开发了一种称为 drugAI 的新型药物设计方法，该方法利用编码器-解码器 Transformer 架构与通过蒙特卡罗树搜索（RL-MCTS）进行的强化学习来加快药物发现过程，同时确保生产具有药物样特性和对其靶标具有强结合亲和力的有效小分子。

与两种现有的基准方法相比，drugAI 生成的化合物的有效性和药物相似性都有显著改善。此外，drugAI 确保生成的分子对其各自的靶标表现出强大的结合亲和力。

该研究以「De Novo Drug Design Using Transformer-Based Machine Translation and Reinforcement Learning of an Adaptive Monte Carlo Tree Search」为题，于 2024 年 1 月 27 日发布在《Pharmaceuticals》。

从 ChatGPT 到 Midjourney 的生成式人工智能平台在 2023 年占据了头条新闻。但 GenAI 能做的不仅仅是创建拼贴图像和帮助编写电子邮件，它还可以设计治疗疾病的新药物。

如今，科学家利用先进技术来设计具有正确性质和特征的新合成药物化合物，也称为「从头药物设计」。然而，当前的方法可能是劳动力、时间和成本密集型的。

生成机器学习模型旨在学习现有数据中的模式和结构，并创建新的、以前未见过的数据。近年来，这些模型在药物发现领域越来越受欢迎，有望彻底改变制药工程的未来。

受到 ChatGPT 的启发，查普曼大学的研究人员 Dony Ang、Cyril Rakovski 和 Hagop Atamian 等编写了一个模型来学习已知化学物质的大量数据集、它们如何与目标蛋白质结合，以及化学结构和性质的规则和语法。

最终结果是，该模型可以产生无数独特的分子结构。这些结构遵循基本的化学和生物约束，并有效地与其靶标结合——有望以极低的成本大大加快针对多种疾病识别可行候选药物的过程。

为了创建突破性模型，研究人员首次集成了生物信息学和化学信息学领域的两种尖端人工智能技术：「编码器-解码器 Transformer 架构」和「通过蒙特卡罗树搜索的强化学习」（RL-MCTS）。该平台被命名为「drugAI」，允许用户输入目标蛋白质序列（例如，通常与癌症进展有关的蛋白质）。

DrugAI 经过综合公共数据库 BindingDB 数据的训练，可以从头开始生成独特的分子结构，然后迭代地完善候选药物，确保决赛入围者对各自的药物靶标表现出强大的结合亲和力，这对于潜在药物的功效至关重要。该模型识别出 50-100 个可能抑制这些特定蛋白质的新分子。

「这种方法使我们能够生产出一种从未设想过的潜在药物。」Atamian 博士说，「它已经过测试和验证。现在，我们看到了惊人的结果。」

研究人员根据几个标准评估了 drugAI 生成的分子，发现 drugAI 的结果与其他两种常见方法的结果相似，在某些情况下甚至更好。他们发现 drugAI 的候选药物的有效性为 100%——这意味着生成的药物都不存在于训练集中。

图示：所生成分子的 QED 药物相似性在不同解码算法中的分布。（来源：论文）

DrugAI 的候选药物还测量了药物相似度，即化合物性质与口服药物的相似度，候选药物比其他模型至少高出 42% 和 75%。此外，所有由 drugAI 生成的分子都对各自的靶标表现出很强的结合亲和力，与通过传统虚拟筛选方法鉴定的分子相当。

图示：生成的分子在不同解码算法中的属性分布。（来源：论文）

研究人员还想了解 drugAI 对特定疾病的治疗效果与现有已知的治疗该疾病的药物相比如何。在另一项实验中，筛选方法生成了一系列抑制 COVID-19 蛋白的天然产物；drugAI 生成了一系列针对相同蛋白质的新药物，以比较它们的特性。他们比较了天然分子和 drugAI 之间的药物相似性和结合亲和力，并发现两者具有相似的测量结果，但 drugAI 能够以更快、更便宜的方式识别这些分子。

表：drugAI 针对 SARS-CoV-2 Mpro 靶蛋白生成的分子。（来源：论文）