优于SOTA,腾讯AI Lab开发双重聚集模型,实现靶标配体3D份子生成和开始化合物优化

编辑 | 萝卜皮基于结构的生成化学,通过探索广阔的化学空间来设计对靶标具备高结合亲和力的配体,在计算机辅助药物发现中至关重要。然而,传统的计算机格式受到计算效率低下的限制,机器学习格式则因自回归采样而面临瓶颈。为了解决这些问题,腾讯 AI lab、香港城市大学、锐格医药(Regor Therapeutics Group)的研讨职员开发了一种条件深度生成模型 PMDM,用于生成适合一定靶标的 3D 份子。PMDM 由具备局部和全局份子动力学的条件等变聚集模型组成,使 PMDM 能够考虑条件卵白质信息从而有效地生成份子

优于SOTA,腾讯AI Lab开发双重聚集模型,实现靶标配体3D份子生成和开始化合物优化

编辑 | 萝卜皮

基于结构的生成化学,通过探索广阔的化学空间来设计对靶标具备高结合亲和力的配体,在计算机辅助药物发现中至关重要。

然而,传统的计算机格式受到计算效率低下的限制,机器学习格式则因自回归采样而面临瓶颈。

为了解决这些问题,腾讯 AI lab、香港城市大学、锐格医药(Regor Therapeutics Group)的研讨职员开发了一种条件深度生成模型 PMDM,用于生成适合一定靶标的 3D 份子。

PMDM 由具备局部和全局份子动力学的条件等变聚集模型组成,使 PMDM 能够考虑条件卵白质信息从而有效地生成份子。综合实验表明,PMDM 在多个评价指标上均优于基线模型。

为了评价 PMDM 在真实药物设计场景中的应用,研讨职员分别对 SARS-CoV-2 主要卵白酶(Mpro)和细胞周期卵白依赖性激酶 2 (CDK2) 进行开始化合物优化。该团队在湿实验室里合成了选定的开始优化份子,并对其进行评价,结果显示出了更强的 CDK2 体外活性。

该研讨以「A dual diffusion model enables 3D molecule generation and lead optimization based on target pockets」为题于 2024 年 3 月 26 日发布在《Nature Communications》。

优于SOTA,腾讯AI Lab开发双重聚集模型,实现靶标配体3D份子生成和开始化合物优化

基于结构的药物发现(SBDD)在现代药物开发和催化中发挥着至关重要的作用。给定一定的靶卵白,其目的是识别有效结合一定靶卵白的合适药物份子。传统的计算机格式(例如虚拟筛选)通过迭代(1)将现有数据库中的份子放入卵白质袋腔中以及(2)根据实验论文中的能量估计、毒性等标准过滤份子来发现药物。

然而,这些格式存在两个局限性。首先,在巨大的化学空间(范围从 10^60 到 100^100,取决于所需份子的大小)中进行天真的详尽搜索成本高昂。其次,该工作流程受到历史知识的限制,因此无法探索和生成现有数据库中尚未记录的份子结构。

深度学习技术推动了药物份子结构学习和化学空间探索,但现有格式在处理三维(3D)空间信息和生成高亲和力份子方面存在局限。新一代生成模型致力于在卵白质口袋内实现 3D 份子采样,从而提高份子设计的精确性和效率。尽管如此,准确捕捉份子细节、高效探索化学空间和保持全局信息仍是当前研讨的挑战。

受到计算机视觉任务中聚集模型的启发,腾讯 AI lab、香港城市大学、锐格医药的研讨团队提出了一种名为 Pocket based Molecular Diffusion Model(PMDM)的一次性生成框架。它能够通过整合聚集框架,用一次性方式生成以一定靶标卵白为条件的 3D 小份子配体。

优于SOTA,腾讯AI Lab开发双重聚集模型,实现靶标配体3D份子生成和开始化合物优化

图示:PMDM 框架概述。(来源:论文)

具体来说,具备固定口袋信息的份子原子被视为 3D 点云,并在前向过程中聚集,这类似于非平衡热力学中的现象。PMDM 的目标是学习如何逆向此过程来对条件数据分布进行建模。

一旦口袋信息固定,研讨职员便能够用模型有效地生成具备高结合亲和力的精确份子。然而,如果研讨职员将 3D 份子几何形状表示为 3D 点云,则 3D 点云的常规格式不能涉及化学键信息等边缘信息。因此,该团队定义了双重聚集策略来构建两种虚拟边缘。

详细地说,原子间距离低于一定阈值的原子对通过共价局部边缘键合,因为当两个原子彼此足够接近时,化学键可以主导原子间力,而全局边缘连接到其余的原子对以模拟范德华力。此外,研讨职员设计了一个服从份子几何系统的平移、旋转、反射和排列等变的等变动态核。

合成 CrossDocked 数据集上的实验表明,PMDM 可以生成类药物、可合成、多样化的份子,对一定卵白质具备高结合亲和力,并在多个评价指标上优于最先进的(SOTA)模型。

优于SOTA,腾讯AI Lab开发双重聚集模型,实现靶标配体3D份子生成和开始化合物优化

图示:分别由 AR-SBDD、DiffSBDD 和 PMDM 生成的示例份子与测试集的示例份子的比较。(来源:论文)

PMDM 的复杂性和采样时间要少得多,与 SOTA 格式相比,PMDM 实现了更好的或具备竞争力的性能。生成的份子的化学空间分析证明了生成的份子结构与 2D 和 3D 空间中的参考份子相比的合理性。此外,PMDM 具备生成大量生物活性份子的能力,这些份子对训练集中未包含的靶标卵白具备高结合亲和力。

研讨职员利用 PMDM 分别对 SARS-CoV-2 主要卵白酶(Mpro)和细胞周期卵白依赖性激酶 2 (CDK2) 进行开始化合物生成和优化。开始生成结果表明 PMDM 可以生成包含参考份子考证的结构模式的份子。

优于SOTA,腾讯AI Lab开发双重聚集模型,实现靶标配体3D份子生成和开始化合物优化

图示:SARS-CoV-2 主要卵白酶 (Mpro) 的开始生成案例。(来源:论文)

通过提出给定一定片段的采样算法和用于链接器生成的采样算法,该模型可以应用于开始优化场景,包括支架跳跃和生成,而无需在一定数据集上重新训练。

该团队合成了选定的开始优化份子,并评价了其针对 CDK1 和 CDK2 的体外活性。体外结果表明所有份子都表现出改善的 CDK2 活性和适当的 CDK1 选择性。研讨职员认为 PMDM 可以推进针对一定卵白质的从头药物优化,并加速未来的药物开发研讨。

兰大博士评价:有创新点,但也有局限性

「该研讨是一个基于聚集模型的靶标口袋 3D 份子生成和开始化合物工作,主要创新点在于同时考虑了 local 和 global 的信息。这项研讨能够以一次性方式生成以一定靶标卵白为条件的 3D 小份子配体,份子生成性能相对优秀,并显著降低了计算量和时间消耗。」

「除此之外,该工作还应用到了真实药物设计场景(Mpro 卵白开始化合物优化),证明了其实际应用可行性和算法有效性。」兰州大学的博士生黎育权在看到论文后评论道,他的导师是澳门理工大学应用科学学院教授、人工智能药物发现中心学术带头人姚小军。

黎育权说:「但这项工作也存在一定局限性。一方面,该格式需要更多的解释和透明度。比如说,深入到算法的运行时张量分析,分析双聚集策略是如何起关键作用的。另一方面,该格式需要更多的案例考证。算法创新是否能真的落地到药物发现并当中,实现论文中所述的多个方面作用,并稳定地发挥出价值。我认为仅凭论文中的少量是不够考证的。期待后续更多的案例考证。」

论文链接:https://www.nature.com/articles/s41467-024-46569-1

给TA打赏
共{{data.count}}人
人已打赏
理论

优于人类大师,GPT-4 准确解释单细胞类别,成本低且稳健

2024-3-28 18:44:00

理论

吴恩达:别光盯着GPT-5,用GPT-4做个智能体能够提前达到GPT-5的成果

2024-4-1 11:27:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索