药物分子设计新策略,微软条件扩散模型DiffLinker登Nature子刊

编辑 | 紫罗药理学领域的化学空间高达 10^60,在广阔的化学空间中进行搜索,给药物设计带来了巨大的挑战。基于片段的药物发现一直是早期药物开发的有效范例。然而,该领域面临的一个挑战是,如何设计断开的感兴趣分子片段之间的连接子(linker),生成化学上合理的候选药物分子。在此,来自微软研究院科学智能中心(AI4Science)、洛桑联邦理工学院、牛津大学和 MIT 的研究团队,提出了一种用于分子 linker 设计的 E(3) 等变三维条件扩散模型 DiffLinker。与以前只能连接分子片段对的方法不同,新方法

图片

编辑 | 紫罗

药理学领域的化学空间高达 10^60,在广阔的化学空间中进行搜索,给药物设计带来了巨大的挑战。

基于片段的药物发现一直是早期药物开发的有效范例。然而,该领域面临的一个挑战是,如何设计断开的感兴趣分子片段之间的连接子(linker),生成化学上合理的候选药物分子。

在此,来自微软研究院科学智能中心(AI4Science)、洛桑联邦理工学院、牛津大学和 MIT 的研究团队,提出了一种用于分子 linker 设计的 E(3) 等变三维条件扩散模型 DiffLinker。

与以前只能连接分子片段对的方法不同,新方法可以连接任意数量的片段。此外,模型会自动确定 linker 中的原子数量及其与输入片段的连接点。

DiffLinker 在标准数据集上优于其他方法,可生成更多样化且可合成的分子。在实际应用中对其方法进行实验测试,表明它可以成功生成以靶标蛋白口袋为条件的有效 linker。

研究人员表示,术语「linker」泛指任何能够连接起始分子片段的化学物质,并不特指与所讨论任一领域相关术语的特定含义。

相关研究以《Equivariant 3D-conditional diffusion model for molecular linker design》为题,于 2024 年 4 月 11 日发布在《Nature Machine Intelligence》上。

药物分子设计新策略,微软条件扩散模型DiffLinker登Nature子刊

论文链接:https://www.nature.com/articles/s42256-024-00815-9

据估计,药理学相关分子的空间超过 10^60 个结构。减小该空间大小的一个成功方法是从「片段」开始,这些小分子化合物通常不超过 20 个重(非氢)原子。这种策略称为基于片段的药物设计 (FBDD)。

给定蛋白质口袋,通过计算确定与口袋相互作用的片段是比实验筛选方法更便宜、更有效的替代方法。一旦相关片段被识别并与靶标蛋白对接,就需要将它们组合成单个连接的化合物。

机器学习方法方法可以超越可用数据并更有效地生成不同的 linkers。然而,这些方法在原子排列方面并不等变,并且只能组合片段对。迄今为止,还没有考虑靶标蛋白口袋的分子 linker 设计计算方法。

最先进的生成方法:条件扩散模型 DiffLinker

在此,研究人员解决了放置在三维 (3D) 环境中的片段连接起来的问题,并可以将设计过程调节到靶标蛋白口袋。

DiffLinker 是一种条件扩散模型,可以为一组表示为 3D 原子点云的输入片段生成分子 linker。

首先,模型生成预期 linker 的大小,然后从正态分布中采样初始 linker 原子类型和位置。接下来,使用以输入片段为条件的神经网络迭代更新连接原子类型和坐标。最终,去噪后的连接原子和输入片段原子形成一个 linker 的分子。

图片

图 1:分子 linker 生成过程概述。(来源:论文)

DiffLinker 有几个理想的属性:它与平移、旋转、反射和排列等价;它不受输入片段数量的限制,不需要有关连接原子的信息,并且生成没有预定义大小的 linker。

此外,研究人员提出了一种新的欧几里得扩散模型的 3D 调节机制,这使得 DiffLinker 成为一种多功能且最先进的生成方法,适用于各种基于结构的药物设计任务。

表 1:ZINC、CASF 和 GEOM 测试集的性能指标。(来源:论文)

图片

研究表明,DiffLinker 在生成片段对之间的化学相关 linker 方面的性能优于以前的方法。

该方法在合成可及性和药物相似性方面取得了最先进的结果,这使得它在药物设计管道中非常有用。

此外,DiffLinker 在生成的 linker 的化学多样性方面明显优于其他方法。

图片

图 2:在口袋条件和非条件条件下使用 DiffLinker 生成配体。(来源:论文)

研究人员进一步提出了一个更具挑战性的基准,并表明该方法能够成功 link 两个以上的片段,这是其他方法无法做到的。

研究还证明了 DiffLinker 可以以靶标蛋白口袋为条件;模型尊重周围蛋白质原子施加的几何约束,并生成在结构上与相应口袋兼容的分子。

三个案例研究

为了证明 DiffLinker 在实际药物设计应用中的相关性,研究人员提供了三个案例研究:热休克蛋白 90 (Hsp90) 和肌苷 5'-单磷酸脱氢酶 (IMPDH) 抑制剂的基于片段的设计,以及用于提高 c-Jun 氨基末端激酶 (JNK) 选择性的支架跳跃(scaffold hopping)。

Hsp90 是一种分子 chaperone,参与多种蛋白质的折叠,包括那些参与致癌转化的蛋白质。DiffLinker 成功复现了参考文献中报告的抑制剂。重现参考抑制剂分子的所有三个 DiffLinker 样品的对接分数与参考分数相当。

图片

图 3:Hsp90 作为基于片段的配体生成的实际示例。(来源:论文)

IMPDH 是一个有吸引力的结核病药物靶点,在鸟嘌呤核苷酸的从头合成中发挥着重要作用。DiffLinker 复现文献报道的两个最有效的抑制剂:化合物 30 和化合物 31。尽管 DiffLinker 没有重现化合物 29,但它生成了 Tanimoto 距离相似的分子。

图片

图 4:基于片段的 IMPDH 抑制剂设计案例研究。(来源:论文)

JNK 是丝裂原激活蛋白激酶的一个重要蛋白家族,可调节多种细胞过程,包括细胞增殖、凋亡、自噬和炎症。研究了 DiffLinker 生成一组不同支架的能力。

DiffLinker 复现了吲唑和氨基吡唑支架。此外,还确定了生成的支架的 238 个独特拓扑,这表明 DiffLinker 能够通过 linker 区域的采样来广泛探索潜在相关支架的空间。

图片

图 5:探索化学多样性以提高 JNK 抑制剂的选择性。(来源:论文)

研究人员表示,「DiffLinker 是第一个不受输入片段数量限制并考虑口袋信息的方法。我们的总体目标是,为从业者提供在真实药物设计中生成分子 linker 的有效工具。」

相关资讯

辉瑞 AI 方法登 Science,揭示数以万计的配体-蛋白质相互作用

编辑 | X尽管蛋白质结构预测取得了重大进展。但对于 80% 以上的蛋白质,迄今为止尚未发现小分子配体。识别大多数蛋白质的小分子配体仍具有挑战性。现在,奥地利科学院分子医学研究中心 CeMM 的研究人员与辉瑞公司合作,开发了一种方法来预测数百种小分子与数千种人类蛋白质的结合活性。这项大规模研究揭示了数以万计的配体-蛋白质相互作用,通过探索这些相互作用,从而可以开发化学工具和治疗方法。此外,在机器学习和人工智能的支持下,它可以「公正」地预测小分子如何与活体人类细胞中存在的所有蛋白质相互作用。相关研究以《Large-s

使用深度学习,通过一个片段修饰进行分子优化

编辑 | 萝卜皮分子优化是药物开发中的关键步骤,可通过化学修饰改善候选药物的预期特性。来自俄亥俄州立大学(The Ohio State University)的研究人员,在分子图上开发了一种新颖的深度生成模型 Modof,用于分子优化。Modof 通过预测分子处的单个断开位点以及在该位点去除和/或添加片段来修饰给定的分子。在 Modof-pipe 中实现了多个相同 Modof 模型的管道,以修改多个断开位置的输入分子。研究人员表明 Modof-pipe 能够保留主要的分子支架,允许控制中间优化步骤并更好地约束分子相

图生成扩散模型综述:算法与在分子和蛋白质建模上应用

论文简要回顾了扩散模型在图数据上的算法及相关应用的若干研究。论文链接::(Graph-based Data)可以保存现实世界实体(节点)之间丰富多样的关系信息,包括实体间的关联联系、属性特征、以及拓扑结构,已经在社交网络分析、推荐系统、生物信息学等领域有广泛的应用。图生成模型旨在理解和学习现有的图数据分布,并合成新的图样本。这对于研究图数据中潜在的图结构关系,理解现有数据中的模式、关联和隐藏的信息具有重要的意义。生成模型可以用于探索图数据不同尺度的关系、发现社区结构、预测节点属性等。主要的图生成范式分为两类:自回归