编辑 | 紫罗
高效的从头设计是计算机辅助药物发现的巨大挑战。
上个月,浙大侯廷军团队和碳硅智慧合作提出了一种基于蛋白口袋的三维(3D)分子生成模型——ResGen,ResGen 计算效率更高,比之前最好的技术快大约八倍。研究成果发表在《Nature Machine Intelligence》上。
近日,该团队又在《Nature Computational Science》发表了其最新研究,提出用于基于结构的分子设计新模型——SurfGen。
近年来,真实的结构特异性三维分子生成已经开始出现,但大多数方法将目标结构视为偏向分子生成的条件输入,并且没有完全了解控制结合复合物分子构象和稳定性的详细原子相互作用。这些细节的遗漏导致许多模型难以为各种治疗靶点输出合理的分子。
为了应对这一挑战,来自浙江大学和碳硅智慧的研究团队,制定了一个名为 SurfGen 的模型,该模型以类似于「钥匙和锁」原理的方式设计分子。
SurfGen 包含两个等变神经网络,Geodesic-GNN 和 Geoatom-GNN,分别捕获口袋表面上的拓扑相互作用以及配体原子和表面节点之间的空间相互作用。
SurfGen 在许多基准测试中都优于其他方法,其对口袋结构的高敏感性使得基于生成模型的有效解决方案能够解决突变诱导的耐药性这一棘手问题。
该研究以「Learning on topological surface and geometric structure for 3D molecular generation」为题,发布在《Nature Computational Science》上。
药物设计常用方法
合理的药物设计通常通过两种方法进行:基于配体的药物设计和基于结构的药物设计(SBDD)。人们普遍认为 SBDD 在提供新型候选药物方面更有效,因为它模拟蛋白质如何与小分子相互作用以诱导随后的生物效应。
SBDD 有两种主要方案:虚拟筛选和分子生成。虚拟筛选,评估化合物库中的分子与蛋白质靶标之间的亲和力,并选择排名靠前的分子进行后续实验验证;对于分子生成,通过优化口袋中的原子相互作用,设计化合物与蛋白质的强结合。
对于许多现有的生成模型来说,即使生成过程理论上可以访问化学空间中的更多区域,也往往没有虚拟筛选的实际优势。
研究蛋白质口袋和小分子之间的相互作用是解决这些挑战的关键。根据一个著名的理论,它们可以被抽象为锁和钥匙模型。
最近,蛋白质-蛋白质相互作用(PPI)预测领域出现了一种新的表征方法,蛋白质被建模为抽象表面。该方法考虑了蛋白质-蛋白质界面几何形状的兼容性,并且由于蛋白质拓扑的显式建模,能够更直接地捕获复杂的界面-界面相互作用。
SurfGen 基于蛋白质口袋表面生成 3D 分子
受到表面表征(representation)在 PPI 建模中的启发,研究人员采用蛋白质表面通道作为 SBDD 的蛋白质表征,在表面上嵌入相关的能量特征,然后通过其设计的 Geodesic-图神经网络(Geodesic-Graph Neural Network,Geodesic-GNN)框架进行拓扑学习。
图 1:SurfGen 基于蛋白质口袋表面生成 3D 分子,类似于基于锁孔表面设计钥匙。(来源:论文)
与 PPI 预测的情况不同,蛋白质口袋内小分子的结合相互作用主要由空间相互作用主导,例如范德华力和静电力,因此研究人员提出了另一个称为 Geoattn-GNN 的框架来学习这种额外的和关键的结合相互作用。新提出的模型 SurfGen 统一了这两个框架,不仅可以学习这种几何相互作用,还可以通过拓扑学习更好地模拟小分子和蛋白质袋之间的互补性。
除了学习有利的结合相互作用模式外,基于结构的分子生成还需要指定蛋白质口袋内拟议化合物的原子坐标。为了可靠地做到这一点,通过使物理对称性正确嵌入到网络设计中至关重要。通过使 R ∘ f(x) = f(R ∘ x) (公式 1)或 f(x) = f(R ∘ x) (公式 2)正确地将物理对称性嵌入到网络设计中至关重要。
其中 R 是旋转矩阵,∘ 是矩阵乘法,f(x)是给定输入 x 的神经网络 f 的输出。式 (1) 表示等变性质,式 (2) 表示不变性质。通过结合 SO(3)-等变神经网络和锁与钥匙模型的本质,设计了 Geodesic-GNN 和 GeoattnGNN 模块,用于在 SurfGen 中执行等变性。
研究人员进行了大量的实验来证明,与原始配体和其他最先进 (SOTA) 方法生成的分子相比,SurfGen 生成的分子不仅对蛋白袋具有更高的结合亲和力,而且与蛋白质口袋形成最佳的几何和能量互补。
图 2:针对 COVID-19 目标 3CL 蛋白生成的分子和随机采样的分子。(来源:论文)
此外,实际药物发现案例的结果表明,SurfGen 生成的分子与实验活性分子表现出最高的相似性,并且已经完成了示例性分子生成,以扩展针对 COVID-19 的重点化合物库。
图 3:SurfGen 在真实目标上的演示。(来源:论文)
图 4:莽草酸激酶突变体条件生成分子。(来源:论文)
针对突变靶标的实验表明,SurfGen 足够灵敏,能够感知蛋白质靶标关键突变的影响,并且可以观察到突变引起的对生成分子的显著影响。
局限性及未来展望
总之,SurfGen 是一种 3D 分子生成方法,其灵感源自锁与钥匙的类比。
尽管它在 CrossDock 基准测试和实际数据集上显示出强大的设计能力,但仍然存在某些局限性。
一个值得注意的问题是 SurfGen 仅在 holo 蛋白质结构上进行了评估。在这些结构中,蛋白质口袋已经被诱导进入有利于配体结合的状态。该方法尚未在 apo 结构上进行测试,例如 AlphaFold 预测的结构。为了使 SurfGen 适用于任何给定的蛋白质结构,应考虑使用一个用于探索蛋白质构象空间的附加模块——这是未来研究的可能途径。
另一个更大的挑战是所生成分子的可合成性。目前的分子生成模型还不够复杂,无法直接产生最佳的候选药物。药物化学家在基于 AI 的药物设计中继续发挥着不可替代的作用,通常需要修改生成的分子以提高其可合成性。
展望未来,SurfGen 的目标是将可合成性纳入模型的框架中,从而增强其跨多个目标指标的智能性。
论文链接:https://www.nature.com/articles/s43588-023-00530-2