优于SOTA,腾讯AI Lab开发双重扩散模型,实现靶标配体3D分子生成和先导化合物优化

编辑 | 萝卜皮基于结构的生成化学,通过探索广阔的化学空间来设计对靶标具有高结合亲和力的配体,在计算机辅助药物发现中至关重要。然而,传统的计算机方法受到计算效率低下的限制,机器学习方法则因自回归采样而面临瓶颈。为了解决这些问题,腾讯 AI lab、香港城市大学、锐格医药(Regor Therapeutics Group)的研究人员开发了一种条件深度生成模型 PMDM,用于生成适合特定靶标的 3D 分子。PMDM 由具有局部和全局分子动力学的条件等变扩散模型组成,使 PMDM 能够考虑条件蛋白质信息从而有效地生成分子

优于SOTA,腾讯AI Lab开发双重扩散模型,实现靶标配体3D分子生成和先导化合物优化

编辑 | 萝卜皮

基于结构的生成化学,通过探索广阔的化学空间来设计对靶标具有高结合亲和力的配体,在计算机辅助药物发现中至关重要。

然而,传统的计算机方法受到计算效率低下的限制,机器学习方法则因自回归采样而面临瓶颈。

为了解决这些问题,腾讯 AI lab、香港城市大学、锐格医药(Regor Therapeutics Group)的研究人员开发了一种条件深度生成模型 PMDM,用于生成适合特定靶标的 3D 分子。

PMDM 由具有局部和全局分子动力学的条件等变扩散模型组成,使 PMDM 能够考虑条件蛋白质信息从而有效地生成分子。综合实验表明,PMDM 在多个评估指标上均优于基线模型。

为了评估 PMDM 在真实药物设计场景中的应用,研究人员分别对 SARS-CoV-2 主要蛋白酶(Mpro)和细胞周期蛋白依赖性激酶 2 (CDK2) 进行先导化合物优化。该团队在湿实验室里合成了选定的先导优化分子,并对其进行评估,结果显示出了更强的 CDK2 体外活性。

该研究以「A dual diffusion model enables 3D molecule generation and lead optimization based on target pockets」为题于 2024 年 3 月 26 日发布在《Nature Communications》。

图片

基于结构的药物发现(SBDD)在现代药物开发和催化中发挥着至关重要的作用。给定特定的靶蛋白,其目的是识别有效结合特定靶蛋白的合适药物分子。传统的计算机方法(例如虚拟筛选)通过迭代(1)将现有数据库中的分子放入蛋白质袋腔中以及(2)根据实验论文中的能量估计、毒性等标准过滤分子来发现药物。

然而,这些方法存在两个局限性。首先,在巨大的化学空间(范围从 10^60 到 100^100,取决于所需分子的大小)中进行天真的详尽搜索成本高昂。其次,该工作流程受到历史知识的限制,因此无法探索和生成现有数据库中尚未记录的分子结构。

深度学习技术推动了药物分子结构学习和化学空间探索,但现有方法在处理三维(3D)空间信息和生成高亲和力分子方面存在局限。新一代生成模型致力于在蛋白质口袋内实现 3D 分子采样,从而提高分子设计的精确性和效率。尽管如此,准确捕捉分子细节、高效探索化学空间和保持全局信息仍是当前研究的挑战。

受到计算机视觉任务中扩散模型的启发,腾讯 AI lab、香港城市大学、锐格医药的研究团队提出了一种名为 Pocket based Molecular Diffusion Model(PMDM)的一次性生成框架。它能够通过整合扩散框架,用一次性方式生成以特定靶标蛋白为条件的 3D 小分子配体。

图片

图示:PMDM 框架概述。(来源:论文)

具体来说,具有固定口袋信息的分子原子被视为 3D 点云,并在前向过程中扩散,这类似于非平衡热力学中的现象。PMDM 的目标是学习如何逆向此过程来对条件数据分布进行建模。

一旦口袋信息固定,研究人员便能够用模型有效地生成具有高结合亲和力的精确分子。然而,如果研究人员将 3D 分子几何形状表示为 3D 点云,则 3D 点云的常规方法不能涉及化学键信息等边缘信息。因此,该团队定义了双重扩散策略来构建两种虚拟边缘。

详细地说,原子间距离低于特定阈值的原子对通过共价局部边缘键合,因为当两个原子彼此足够接近时,化学键可以主导原子间力,而全局边缘连接到其余的原子对以模拟范德华力。此外,研究人员设计了一个服从分子几何系统的平移、旋转、反射和排列等变的等变动态核。

合成 CrossDocked 数据集上的实验表明,PMDM 可以生成类药物、可合成、多样化的分子,对特定蛋白质具有高结合亲和力,并在多个评估指标上优于最先进的(SOTA)模型。

图片

图示:分别由 AR-SBDD、DiffSBDD 和 PMDM 生成的示例分子与测试集的示例分子的比较。(来源:论文)

PMDM 的复杂性和采样时间要少得多,与 SOTA 方法相比,PMDM 实现了更好的或具有竞争力的性能。生成的分子的化学空间分析证明了生成的分子结构与 2D 和 3D 空间中的参考分子相比的合理性。此外,PMDM 具有生成大量生物活性分子的能力,这些分子对训练集中未包含的靶标蛋白具有高结合亲和力。

研究人员利用 PMDM 分别对 SARS-CoV-2 主要蛋白酶(Mpro)和细胞周期蛋白依赖性激酶 2 (CDK2) 进行先导化合物生成和优化。先导生成结果表明 PMDM 可以生成包含参考分子验证的结构模式的分子。

图片

图示:SARS-CoV-2 主要蛋白酶 (Mpro) 的先导生成案例。(来源:论文)

通过提出给定特定片段的采样算法和用于链接器生成的采样算法,该模型可以应用于先导优化场景,包括支架跳跃和生成,而无需在特定数据集上重新训练。

该团队合成了选定的先导优化分子,并评估了其针对 CDK1 和 CDK2 的体外活性。体外结果表明所有分子都表现出改善的 CDK2 活性和适当的 CDK1 选择性。研究人员认为 PMDM 可以推进针对特定蛋白质的从头药物优化,并加速未来的药物开发研究。

兰大博士评价:有创新点,但也有局限性

「该研究是一个基于扩散模型的靶标口袋 3D 分子生成和先导化合物工作,主要创新点在于同时考虑了 local 和 global 的信息。这项研究能够以一次性方式生成以特定靶标蛋白为条件的 3D 小分子配体,分子生成性能相对优秀,并显著降低了计算量和时间消耗。」

「除此之外,该工作还应用到了真实药物设计场景(Mpro 蛋白先导化合物优化),证明了其实际应用可行性和算法有效性。」兰州大学的博士生黎育权在看到论文后评论道,他的导师是澳门理工大学应用科学学院教授、人工智能药物发现中心学术带头人姚小军。

黎育权说:「但这项工作也存在一定局限性。一方面,该方法需要更多的解释和透明度。比如说,深入到算法的运行时张量分析,分析双扩散策略是如何起关键作用的。另一方面,该方法需要更多的案例验证。算法创新是否能真的落地到药物发现并当中,实现论文中所述的多个方面作用,并稳定地发挥出价值。我认为仅凭论文中的少量是不够验证的。期待后续更多的案例验证。」

论文链接:https://www.nature.com/articles/s41467-024-46569-1

相关资讯

不到60秒就能生成3D「手办」,Meta发力3D生成,ChatGPT时刻要来了吗?

3D 生成,一直在等待它的「ChatGPT时刻」。一直以来,创作 3D 内容是设计和开发视频游戏、增强现实、虚拟现实以及影视特效中最重要的部分。然而,3D 生成具有独特而艰巨的挑战,这是图像和视频等其他生成内容所不具备的。首先,3D 内容在艺术质量、生成速度、3D 网格结构和拓扑质量、UV 贴图结构以及纹理清晰度和分辨率方面具有严格的标准;其次,与其他研究相比,可用的数据量少。虽然该领域有数十亿张图像和视频可供学习,但可用于训练的 3D 内容数量要少三到四个数量级。因此,现阶段的3D 生成还必须从非 3D 的图像和

准确率 >98%,基于电子密度的 GPT 用于化学研究,登 Nature 子刊

编辑 | 紫罗可合成的分子化学空间是巨大的。要想有效地驾驭这一领域,需要基于计算的筛选技术,如深度学习技术,以快速跟踪感兴趣的化合物发现。然而,使用算法进行化学发现需要将分子结构转换为计算机可用的数字表示形式,并开发基于这些表示形式的算法来生成新的分子结构。近日,来自英国格拉斯哥大学(University of Glasgow)的研究人员,提出了一种基于电子密度训练的机器学习模型,用于生产主客体 binders。这些以简化分子线性输入规范 (SMILES) 格式读出,准确率 98%,从而能够在二维上对分子进行完整的

使用深度学习,通过一个片段修饰进行分子优化

编辑 | 萝卜皮分子优化是药物开发中的关键步骤,可通过化学修饰改善候选药物的预期特性。来自俄亥俄州立大学(The Ohio State University)的研究人员,在分子图上开发了一种新颖的深度生成模型 Modof,用于分子优化。Modof 通过预测分子处的单个断开位点以及在该位点去除和/或添加片段来修饰给定的分子。在 Modof-pipe 中实现了多个相同 Modof 模型的管道,以修改多个断开位置的输入分子。研究人员表明 Modof-pipe 能够保留主要的分子支架,允许控制中间优化步骤并更好地约束分子相