准确率82.5%，设计多药理学化合物，加州大学开发新AI平台设计未来抗癌药物

编辑 | 萝卜皮多药理学药物（可以同时抑制多种蛋白质的化合物）在治疗癌症等重大疾病方面有着重要应用，但非常难以设计。为了应对这一挑战，加州大学圣地亚哥分校的研究人员开发了 POLYGON，这是一种基于生成强化学习的多药理学方法，可以模拟药物发现最早阶段所涉及的耗时化学过程。POLYGON 嵌入化学空间并对其进行迭代采样，从而生成新的分子结构；这些药物的回报是预期能够抑制两个蛋白质靶标中的每一个，并且具有药物相似性和易于合成的特点。在超过 100,000 种化合物的结合数据中，POLYGON 能够正确识别多药理学相互

编辑 | 萝卜皮

多药理学药物（可以同时抑制多种蛋白质的化合物）在治疗癌症等重大疾病方面有着重要应用，但非常难以设计。

为了应对这一挑战，加州大学圣地亚哥分校的研究人员开发了 POLYGON，这是一种基于生成强化学习的多药理学方法，可以模拟药物发现最早阶段所涉及的耗时化学过程。

POLYGON 嵌入化学空间并对其进行迭代采样，从而生成新的分子结构；这些药物的回报是预期能够抑制两个蛋白质靶标中的每一个，并且具有药物相似性和易于合成的特点。

在超过 100,000 种化合物的结合数据中，POLYGON 能够正确识别多药理学相互作用，准确率达 82.5%。研究人员用它生成了，针对十对具有相互依赖关系蛋白质的从头设计化合物。对接分析表明，顶部结构以低自由能结合靶标。

该团队还合成了 32 种针对 MEK1 和 mTOR 的化合物，其中大多数在剂量为 1–10μM 时，每种蛋白质活性和细胞活力降低了 50% 以上。

该研究以「De novo generation of multi-target compounds using deep generative chemistry」为题，于 2024 年 5 月 6 日发布在《Nature Communications》。

经典药物发现采用「一种疾病：一种靶标：一种药物」模型。虽然这种模型已经产生了许多成功的治疗方法，但许多疾病并没有单一的分子原因，而是与各种潜在的干预点相关，每个干预点都可能对疾病病因产生部分影响。

对于癌症和精神疾病等多基因疾病来说，这种困难尤其明显，这些疾病整合了复杂生物网络中组织的许多基因的功能效应。应对这些问题，多药理学是一种重要的解决方案。

多药理学化合物的主要障碍是需要设计一种同时有效抑制多种蛋白质的单一药物。有效的多药理学设计，例如针对甲状腺癌中的 RET 和 VEGFR2 的药物，需要大量的时间和资源才能确定合适的命中支架。由于这些原因，此类化合物很大程度上是偶然发现的，而不是系统发现的。

为了实现新的多药理学化合物的编程生成，加州大学圣地亚哥分校的研究团队开发了 POLYGON（POLYpharmacology Generative Optimization Network），这是一种基于生成人工智能和强化学习的深度机器学习模型。

图示：使用 POLYGON 验证特定化合物双靶点活性。（来源：论文）

「几年前，人工智能在制药行业是一个肮脏的词，但现在的趋势却截然相反。生物技术初创公司发现如果不在其商业计划中提及人工智能就很难筹集资金。」论文的通讯作者，加州大学圣地亚哥分校医学系教授、生物工程和计算机科学兼职教授 Trey Ideker 说，「人工智能引导的药物发现已成为行业中非常活跃的领域，但与公司开发的方法不同，该技术将会开源，任何人都可以使用。」

POLYGON 的组成

POLYGON 的核心部分是一个变分自编码器（VAE），这是一种深度神经网络，它将分子化合物的化学结构转换为「化学嵌入」（chemical embedding）。这个过程涉及将复杂的化学结构映射到低维空间中，使得相似的化学结构在嵌入空间中接近。

图示：嵌入化学空间以生成多药理药物的发现。（来源：论文）

VAE 包含两个门控循环单元递归神经网络（GRU-RNNs），分别作为编码器和解码器。编码器将分子x转换为概率分布 z，代表化学嵌入中的点；解码器则将这些嵌入坐标重新转换为有效的分子结构 x'。

训练过程中，VAE 优化两个损失函数：一个减少重构误差，确保解码后的分子接近原始输入；另一个是 Kullback-Leibler 散度，促使嵌入分布接近正态分布。

POLYGON 的第二个关键组件是基于强化学习的系统，用于生成对两个不同靶点具有活性的多靶点药物分子。该系统通过迭代方式工作，每次迭代时随机从化学嵌入空间中采样分子，并根据它们对两个特定靶标的预测抑制能力、合成可行性和药物类属性等多个奖励标准进行评分。高分分子的坐标被用来定义嵌入空间的子区域，用于模型的再训练和后续迭代中的随机采样，以此平衡利用现有知识与探索未知化学空间的需求。

POLYGON 的应用

POLYGON 在药物发现的人工智能工具中是独一无二的，因为它可以识别具有多个靶点的分子，而现有的药物发现协议目前优先考虑单靶点疗法。多靶点药物可以提供与联合疗法（几种不同的药物一起使用）相同的治疗效力，但副作用更少。

「寻找和开发一种新药需要多年时间和数百万美元，特别是当我们谈论的是具有多个靶点的药物时。」Ideker说，「我们所拥有的罕见的多靶点药物很大程度上是偶然发现的，但这项新技术可以帮助摆脱偶然性并启动新一代精准医学。」

研究人员利用 POLYGON 生成了一系列针对 10 对合成致命癌症蛋白的从头分子化合物，并通过包括 3D 分子对接分析在内的多种方法对其进行评估。

图示：肖像与小分子的生成模型。（来源：论文）

「就像人工智能现在非常擅长生成原始图片，例如根据年龄或性别等所需属性创建人脸图片，POLYGON 能够根据所需化学属性生成原始分子化合物。」Ideker 说，「在这种情况下，不是告诉人工智能我们希望脸看起来有多大，而是告诉它我们希望未来的药物如何与疾病蛋白质相互作用。」

图示：从头设计和合成 mTOR/MEK1 抑制剂。（来源：论文）

该团队合成了 32 种 POLYGON 化合物，用于双重抑制 MEK1 和 mTOR。这两种蛋白质被科学家称为综合致死蛋白，这意味着同时抑制这两种蛋白质就足以杀死癌细胞，即使单独抑制其中一种还不足以杀死癌细胞。随后研究人员在无细胞测定和肺肿瘤细胞中对其进行了验证。

「一旦你有了候选药物，你仍然需要进行所有其他化学反应，将这些选择细化为单一、有效的治疗方法。」Ideker说，「我们不能，也不应该试图从药物发现管线中消除人类的专业知识，但我们可以做的是缩短这一过程的几个步骤。」

尽管存在这种谨慎，研究人员仍乐观地认为人工智能用于药物发现的可能性才刚刚被探索。

「看到这个概念在未来十年如何在学术界发挥作用，将是非常令人兴奋的。」Ideker说，「可能性几乎是无限的。」

论文链接：https://www.nature.com/articles/s41467-024-47120-y

相关报道：https://phys.org/news/2024-05-simulated-chemistry-ai-platform-tomorrow.html

准确率82.5%，设计多药理学化合物，加州大学开发新AI平台设计未来抗癌药物

相关资讯

GPT-4驱动的机器人化学家登Nature，自主设计反应并执行复杂实验

超越AF2？Iambic、英伟达、加州理工学院开发多尺度深度生成模型，进行状态特异性蛋白质-配体复合物结构预测

深度学习与化学语言模型结合，用于药物从头设计，登Nature子刊