编辑 | X
份子生成是 AI 助力小份子新药研发的核心技术。望石智慧始终专注于份子生成技术的开发。
就在前几天,望石智慧的钻研团队推出了 Lingo3DMol,用于在给定口袋 3D 布局的情况下生成小份子配体的 3D 布局。办法分离了语言模型和几何深度学习技术。
钻研职员在传统的 SMILES 份子表征的基础上,开发了新的份子表达办法 FSMILES。
此外,钻研训练了一个单独的非共价相互作用预测器,为生成模型提供必要的分离形式信息。Lingo3DMol 可以有效地穿越类似药物的化学空间,防止异常布局的形成。Lingo3DMol 在药物相似性、合成可及性、口袋分离形式和份子生成速度方面优于最先进的办法。
该钻研以「Generation of 3D molecules in pockets via a language model」为题,于 2024 年 1 月 15 日发布在《Nature Machine Intelligence》 上。
论文链接:https://www.nature.com/articles/s42256-023-00775-6
当前 3D 份子生成办法的局限性
鉴于布局的药物设计涉及设计能够特异性分离所需靶蛋白的份子,这是一项基础且具有挑战性的药物发现任务。应用 AI 从头生成份子最近作为药物发现工具而受到关注。
早期的份子生成模型依赖于份子字符串表达或图表达。然而,这两种表达都忽略了 3D 空间相互作用,使得它们对于目标感知份子的生成来说不是最佳的。3D 蛋白质-配体复合布局数据的增加和几何深度学习(Geometric Deep Learning)的进步为 AI 算法直接设计具有 3D 分离姿势的份子铺平了道路。
一些钻研提出将口袋和份子表达为 3D 图,并应用图神经网络(GNN)进行编码和解码。尽管这些办法可以生成具有 3D 构象的份子,但它们有一些共同的缺点:(1) 生成的份子通常包含有问题的、非类药物或不可合成的子布局;(2)有问题的拓扑布局:生成的份子通常包含过多的环或根本没有环。
此外,还有一些鉴于其他技术路线的 3D 份子生成办法,如鉴于扩散模型的办法。代表性办法是 TargetDiff,它应用鉴于图的扩散模型进行非自返回份子生成。尽管它努力避免自返回办法,但它仍然会产生显著比例的不良布局。
虽然鉴于图的 3D 份子生成办法最近显示出巨大的潜力,但它们仍然面临着在给定口袋上复制参考份子而没有任何信息泄漏的困难,这是评价的重要基准。
Lingo3DMol:一种鉴于口袋的 3D 份子生成办法
为了解决上述问题,望石智慧提出了 Lingo3DMol。
图示:Lingo3DMol 模型开发概述。(来源:论文)
首先,引入了一种新的份子序列编码办法,即具有局部和全局坐标的鉴于片断的简化份子线性输入系统(Fragment-based Simplified Molecular-input line-entry System,FSMILES)。通过(1)引入片断间分隔符;(2)片断间以深度优先的原则遍历;(3)把环的大小编码到环原子上, 在保持表达能力不变的情况下最大程度的压缩了表达方式,同时使得片断中的相关原子可以携带其所在环的整体信息,这降低了自返回生成过程的难度。
钻研职员将局部球面坐标系和全局欧几里德坐标系集成到其模型中。由于配体中的键长和键角本质上是刚性的,因此直接预测它们比预测原子的欧几里得坐标更容易。这两种类型的坐标的组合使模型能够考虑更大的空间上下文,同时保持准确的子布局。
此外,通过合并单独训练的 NCI/anchor 预测器,在份子生成过程中还考虑了非共价相互作用 (NCI) 和配体-蛋白质分离形式。
钻研还应用了类似于 BART 和 Chemformer 的 3D 份子去噪预训练策略来提高模型的泛化能力。Lingo3DMol 模型根据 PDBbind2020 的数据进行了微调。
最后,钻研职员在 Directory of Useful Decoys-Enhanced(DUD-E)数据集上评价了 Lingo3DMol,并将其与最先进的 (SOTA) 办法进行了比较。Lingo3DMol 在各种指标上都优于现有办法。
该钻研的主要贡献可概括如下:
引入了一种新的 FSMILES 份子表达,它分离了局部和全局坐标,从而能够生成具有合理 3D 构象和二维 (2D) 拓扑的 3D 份子。开发了 3D 份子去噪预训练办法和独立的 NCI/anchor 模型,以帮助克服数据有限的问题并识别潜在的 NCI 分离位点。所提出的办法在各种指标方面均优于 SOTA 办法,包括药物相似性、合成可及性和口袋分离形式。
图示:生成份子的案例钻研,涉及 3D 分离形式和与活性化合物的 2D 相似性。(来源:论文)
溶解分析
有效的预训练和微调分析
具体来说,对于 DUD-E targets,将经过预训练和未经预训练的模型生成的份子分别与预训练集中的份子进行比较。钻研证明,与未经预训练的模型生成的份子相比,预训练模型生成的份子与预训练集中的份子表现出更高程度的相似性。这表明模型在微调后保留了预训练的效果。如下表所示,预训练显著提高了类药份子的百分比、平均 QED、ECFP_TS > 0.5 的百分比、平均 min-in-place GlideSP 得分和多样性。
表:溶解钻研中产生的类药物份子的比较。(来源:论文)
NCI 预测模型溶解钻研
在这项溶解钻研中,钻研职员将应用随机选择的 NCI 位点的 Lingo3DMol 与应用训练有素的 NCI 位点预测器的标准 Lingo3DMol 进行了比较。标准 Lingo3DMol 在大多数指标上都表现出优异的性能,特别是在药物相似度和 ECFP_TS > 0.5 方面。
最后,值得注意的是,对于超过 95% 的 DUD-E targets,训练集(PDBbind, general set, v.2020)和基准模型的训练集(CrossDocked2020)都包含至少一个在 ECFP4 指纹方面与 DUD-E 活性物的 Tanimoto 相似度大于 0.5 的份子。然而,与具有随机 NCI 和基线模型的 Lingo3DMol 相比,标准 Lingo3DMol 的 ECFP_TS > 0.5 的显著改进表明,这种改进不能仅仅归因于模型再现了训练期间所看到的内容。
下一步钻研
尽管如此,挑战仍然存在。由于自返回生成过程,捕获单个份子内的所有 NCI 并不简单,钻研职员计划进一步钻研这个问题。用电子密度表达份子和份子间相互作用也许提供了一个有前途的方向。
此外,等方差性质是 3D 份子生成的一个关键方面。目前,应用旋转和平移增强来增强模型,并应用 SE(3) 不变特征来缓解该问题。最
最后,通过案例分析并应用化学信息学工具评价了药物样特性。然而,对这些特性进行全面、系统的评价是进一步钻研的重要一步。
注:封面来自于网络。