编辑 | 萝卜皮
鉴于深度进修的份子生成在许多领域都有广泛的应用,特别是药物发现。然而,目前的深度生成模型大多数是鉴于配体的,在份子生成过程中没有考虑化学学问,往往导致成功率相对较低。
四川大学的钻研团队提出了一种鉴于构造的份子生成框架,称为 PocketFlow;该框架明确考虑了化学学问,可在卵白质分离袋内生成新型配体份子,用于鉴于构造的从头药物设计。
在各种计算评估中,PocketFlow 表现出了最先进的性能,生成的份子具有 100% 化学有效且高度类似药物。
钻研职员将PocketFlow应用于两个与表观遗传调控相关的新靶卵白 HAT1 和 YTHDC1,并成功获得了湿尝试室考证的生物活性化合物。活性化合物与靶卵白的分离模式与份子对接预测的相近,并通过 X 射线晶体构造进一步证实。
该钻研以「PocketFlow is a data-and-knowledge-driven structure-based molecular generative model」为题,于 2024 年 3 月 11 日发布在《Nature Machine Intelligence》。
创新药物发现是一个极其复杂且昂贵的过程,主要包括活性种子化合物(通常称为掷中或开始化合物)的检索、掷中/开始化合物优化、临床前评估和临床试验。
其中,掷中/开始化合物的检索是第一步,也是关键的一步,因为它是启动新药开发项目的基础,并且可以极大地影响后续的药物开发步骤。
传统上,掷中/开始化合物的发现是通过针对已知化合物库的高通量筛选来完成的。然而,现有化合物库的构造多样性有限,以及各个药物开发机构或公司的长期持续筛选,使得检索新的活性化合物和建立学问产权变得越来越困难。
DGM 面临的挑战
深度生成模型(DGM)在生成图像、文本和声音方面取得了巨大成功,为生成全新的种子化合物提供了一种有效的方法。虽然鉴于构造的 DGM 可以在卵白质分离袋内生成新型配体份子,但仍然存在许多具有挑战性的问题:
(1)现有的数据集由已知的尝试卵白质-配体复合物构造组成,规模较小,不足以训练生成模型。
(2)目前,鉴于构造的 DGM 仍然是一种数据启动的方法;越来越多的观点认为,将领域学问或规则融入深度进修模型可以有效解决数据缺乏、稳健性和可解释性差的问题。
(3)当前大多数深层份子生成模型在训练和生成过程中并未考虑化学键信息。相反,它们输出一组没有连接性的离散原子,然后通过第三方方法(例如 OpenBabel)将这些原子组装成份子。这种策略可能会产生许多不需要的子构造,从而导致化学合成困难或药物相似性低。
(4)虽然生成的份子已在理论上得到考证,但其生物活性和分离模式尚未通过湿尝试室尝试考证。
数据和化学学问双启动的 DGM
为了应对这些挑战,四川大学的钻研团队提出了一种由数据和化学学问双启动的鉴于构造的份子生成框架,名为 PocketFlow。
在 PocketFlow 中,钻研职员提出了一种鉴于最优向量的等变图神经网络、一种若干双瓶颈感知器(GDBP)来对卵白质-配体复合物的若干构造进行建模。
为了捕获卵白质和配体之间的相互作用信息,钻研职员将卵白质和配体的拓扑学问引入到模型中。还采用了三角自注意力机制和迁移进修等许多技术来增强模型进修若干约束和化学构造的能力。
图示:PocketFlow的架构和生成过程。(来源:论文)
特别值得一提的是,化学学问深深融入到份子生成过程中。在各种计算考证中,与基线相比,PocketFlow 显示出生成药物样份子的最佳能力。
PocketFlow 生成的份子在许多方面都比基线生成的份子更接近真实的药物样份子(CrossDocked2020),包括合成可及性、键长分布、键角分布和环构造。此外,与基线相比,PocketFlow 可以生成具有更好分离位点(口袋内部)和更高配体效率的份子。
图示:评估生成份子的若干形状。(来源:论文)
钻研职员在 PocketFow 中使用的参数相对较少(大约21万个),这表明对计算资源的需求较少;参数较多的模型预计比参数较少的模型具有更好的性能,但需要更多的计算资源。
重要的是,PocketFlow 的有效性已通过湿尝试室尝试得到考证。该团队将 PocketFlow 应用于 HAT1 和 YTHDC1,它们被认为是治疗各种疾病,特别是治疗癌症相关的重要靶点。
图示:从不同 DGM 生成的份子中随机选择的 1,000 个份子的原子位置分布。(来源:论文)
首先使用 PocketFlow 在两种卵白质的活性口袋内生成小份子。然后,从生成的份子中,钻研职员分别为 HAT1 和 YTHDC1 选择并合成了两个和三个非常简单的份子;选择这些份子是因为它们除了具有良好的 QED 或 LE 值之外,还可以轻松快速地制备。获得了一种针对 HAT1 的活性化合物和两种针对 YTHDC1 的活性化合物。
PocketFlow 生成的活性化合物的分离位点和分离位姿与份子对接预测的非常相似。尝试 X 射线共晶构造进一步证实所获得的活性化合物确实与指定的卵白袋分离。
结语
总之,PocketFlow 是一个数据和学问双启动的 DGM,在所有测试的 DGM 中显示出 SOTA 性能。同时在某些方面也存在改进的空间。例如,可以进一步提高生成的份子的分离亲和力,这可以通过引入强化进修来实现。其他需要改进的领域,包括考虑卵白质的灵活性以及所生成份子的药代动力学特性和毒性。
论文链接:https://www.nature.com/articles/s42256-024-00808-8