以「钥匙和锁」方式设计分子,浙大&碳硅智慧开发3D分子生成新模型SurfGen

编辑 | 紫罗高效的从头设计是计算机辅助药物发现的巨大挑战。上个月,浙大侯廷军团队和碳硅智慧合作提出了一种基于蛋白口袋的三维(3D)分子生成模型——ResGen,ResGen 计算效率更高,比之前最好的技术快大约八倍。研究成果发表在《Nature Machine Intelligence》上。近日,该团队又在《Nature Computational Science》发表了其最新研究,提出用于基于结构的分子设计新模型——SurfGen。近年来,真实的结构特异性三维分子生成已经开始出现,但大多数方法将目标结构视为偏向

图片

编辑 | 紫罗

高效的从头设计是计算机辅助药物发现的巨大挑战。

上个月,浙大侯廷军团队和碳硅智慧合作提出了一种基于蛋白口袋的三维(3D)分子生成模型——ResGen,ResGen 计算效率更高,比之前最好的技术快大约八倍。研究成果发表在《Nature Machine Intelligence》上。

近日,该团队又在《Nature Computational Science》发表了其最新研究,提出用于基于结构的分子设计新模型——SurfGen。

近年来,真实的结构特异性三维分子生成已经开始出现,但大多数方法将目标结构视为偏向分子生成的条件输入,并且没有完全了解控制结合复合物分子构象和稳定性的详细原子相互作用。这些细节的遗漏导致许多模型难以为各种治疗靶点输出合理的分子。

为了应对这一挑战,来自浙江大学和碳硅智慧的研究团队,制定了一个名为 SurfGen 的模型,该模型以类似于「钥匙和锁」原理的方式设计分子。

SurfGen 包含两个等变神经网络,Geodesic-GNN 和 Geoatom-GNN,分别捕获口袋表面上的拓扑相互作用以及配体原子和表面节点之间的空间相互作用。

SurfGen 在许多基准测试中都优于其他方法,其对口袋结构的高敏感性使得基于生成模型的有效解决方案能够解决突变诱导的耐药性这一棘手问题。

该研究以「Learning on topological surface and geometric structure for 3D molecular generation」为题,发布在《Nature Computational Science》上。

图片

药物设计常用方法

合理的药物设计通常通过两种方法进行:基于配体的药物设计和基于结构的药物设计(SBDD)。人们普遍认为 SBDD 在提供新型候选药物方面更有效,因为它模拟蛋白质如何与小分子相互作用以诱导随后的生物效应。

SBDD 有两种主要方案:虚拟筛选和分子生成。虚拟筛选,评估化合物库中的分子与蛋白质靶标之间的亲和力,并选择排名靠前的分子进行后续实验验证;对于分子生成,通过优化口袋中的原子相互作用,设计化合物与蛋白质的强结合。

对于许多现有的生成模型来说,即使生成过程理论上可以访问化学空间中的更多区域,也往往没有虚拟筛选的实际优势。

研究蛋白质口袋和小分子之间的相互作用是解决这些挑战的关键。根据一个著名的理论,它们可以被抽象为锁和钥匙模型。

最近,蛋白质-蛋白质相互作用(PPI)预测领域出现了一种新的表征方法,蛋白质被建模为抽象表面。该方法考虑了蛋白质-蛋白质界面几何形状的兼容性,并且由于蛋白质拓扑的显式建模,能够更直接地捕获复杂的界面-界面相互作用。

SurfGen 基于蛋白质口袋表面生成 3D 分子

受到表面表征(representation)在 PPI 建模中的启发,研究人员采用蛋白质表面通道作为 SBDD 的蛋白质表征,在表面上嵌入相关的能量特征,然后通过其设计的 Geodesic-图神经网络(Geodesic-Graph Neural Network,Geodesic-GNN)框架进行拓扑学习。

图片

图 1:SurfGen 基于蛋白质口袋表面生成 3D 分子,类似于基于锁孔表面设计钥匙。(来源:论文)

与 PPI 预测的情况不同,蛋白质口袋内小分子的结合相互作用主要由空间相互作用主导,例如范德华力和静电力,因此研究人员提出了另一个称为 Geoattn-GNN 的框架来学习这种额外的和关键的结合相互作用。新提出的模型 SurfGen 统一了这两个框架,不仅可以学习这种几何相互作用,还可以通过拓扑学习更好地模拟小分子和蛋白质袋之间的互补性。

除了学习有利的结合相互作用模式外,基于结构的分子生成还需要指定蛋白质口袋内拟议化合物的原子坐标。为了可靠地做到这一点,通过使物理对称性正确嵌入到网络设计中至关重要。通过使 R ∘ f(x) = f(R ∘ x) (公式 1)或 f(x) = f(R ∘ x) (公式 2)正确地将物理对称性嵌入到网络设计中至关重要。

其中 R 是旋转矩阵,∘ 是矩阵乘法,f(x)是给定输入 x 的神经网络 f 的输出。式 (1) 表示等变性质,式 (2) 表示不变性质。通过结合 SO(3)-等变神经网络和锁与钥匙模型的本质,设计了 Geodesic-GNN 和 GeoattnGNN 模块,用于在 SurfGen 中执行等变性。

研究人员进行了大量的实验来证明,与原始配体和其他最先进 (SOTA) 方法生成的分子相比,SurfGen 生成的分子不仅对蛋白袋具有更高的结合亲和力,而且与蛋白质口袋形成最佳的几何和能量互补。

图片

图 2:针对 COVID-19 目标 3CL 蛋白生成的分子和随机采样的分子。(来源:论文)

此外,实际药物发现案例的结果表明,SurfGen 生成的分子与实验活性分子表现出最高的相似性,并且已经完成了示例性分子生成,以扩展针对 COVID-19 的重点化合物库。

图片

图 3:SurfGen 在真实目标上的演示。(来源:论文)

图片

图 4:莽草酸激酶突变体条件生成分子。(来源:论文)

针对突变靶标的实验表明,SurfGen 足够灵敏,能够感知蛋白质靶标关键突变的影响,并且可以观察到突变引起的对生成分子的显著影响。

局限性及未来展望

总之,SurfGen 是一种 3D 分子生成方法,其灵感源自锁与钥匙的类比。

尽管它在 CrossDock 基准测试和实际数据集上显示出强大的设计能力,但仍然存在某些局限性。

一个值得注意的问题是 SurfGen 仅在 holo 蛋白质结构上进行了评估。在这些结构中,蛋白质口袋已经被诱导进入有利于配体结合的状态。该方法尚未在 apo 结构上进行测试,例如 AlphaFold 预测的结构。为了使 SurfGen 适用于任何给定的蛋白质结构,应考虑使用一个用于探索蛋白质构象空间的附加模块——这是未来研究的可能途径。

另一个更大的挑战是所生成分子的可合成性。目前的分子生成模型还不够复杂,无法直接产生最佳的候选药物。药物化学家在基于 AI 的药物设计中继续发挥着不可替代的作用,通常需要修改生成的分子以提高其可合成性。

展望未来,SurfGen 的目标是将可合成性纳入模型的框架中,从而增强其跨多个目标指标的智能性。

论文链接:https://www.nature.com/articles/s43588-023-00530-2

相关资讯

辉瑞 AI 方法登 Science,揭示数以万计的配体-蛋白质相互作用

编辑 | X尽管蛋白质结构预测取得了重大进展。但对于 80% 以上的蛋白质,迄今为止尚未发现小分子配体。识别大多数蛋白质的小分子配体仍具有挑战性。现在,奥地利科学院分子医学研究中心 CeMM 的研究人员与辉瑞公司合作,开发了一种方法来预测数百种小分子与数千种人类蛋白质的结合活性。这项大规模研究揭示了数以万计的配体-蛋白质相互作用,通过探索这些相互作用,从而可以开发化学工具和治疗方法。此外,在机器学习和人工智能的支持下,它可以「公正」地预测小分子如何与活体人类细胞中存在的所有蛋白质相互作用。相关研究以《Large-s

AlphaFold 预测细菌生存所需的 1402 种蛋白互作,最完整的细菌必需相互作用图谱

革兰氏阴性必需相互作用组。(来源:eLife)编辑 | 紫罗细菌蛋白质组平均由约 4000-5000 个蛋白质组成,这意味着相互作用组可能多达 2000 万个相互作用。据估计,大肠杆菌中大约有 12,000 种物理相互作用。然而,并非所有这些相互作用都对细菌的生存至关重要。对生物体中蛋白质相互作用的研究,是理解生物过程和中心代谢途径的基础。然而,我们对细菌相互作用组的了解仍然有限。近日,西班牙巴塞罗那自治大学(Universitat Autònoma de Barcelona,UAB)的研究人员使用人工智能工具 A

「AI+物理先验知识」,浙大、中国科学院通用蛋白质-配体相互作用评分方法登Nature子刊

编辑 | X蛋白质就像是身体中的精密锁具,而药物分子则是钥匙,只有完美契合的钥匙才能解锁治疗之门。科学家们一直在寻找高效的方法来预测这些「钥匙」和「锁」之间的匹配度,即蛋白质-配体相互作用。然而,传统的数据驱动方法往往容易陷入「死记硬背」,记住配体和蛋白质训练数据,而不是真正学习它们之间的相互作用。近日,浙江大学和中国科学院研究团队,提出了一种名为 EquiScore 的新型评分方法,利用异构图神经网络整合物理先验知识,并在等变几何空间中表征蛋白质-配体相互作用。EquiScore 基于一个新数据集进行训练,该数据