精确属性控制,湖大、西电从头药物设计AI方法,登Nature子刊

编辑 | 萝卜皮深度生成模型在药物从头设计领域受到广泛关注。 然而,针对新靶点合理设计配体分子仍然具有挑战性,特别是在控制生成分子的性质方面。 在这里,受到 DNA 编码化合物库技术的启发,湖南大学和西安电子科技大学的研究人员提出了 DeepBlock,这是一种基于块(block)的配体生成深度学习方法,可根据目标蛋白质序列进行定制,同时实现精确的属性控制。

图片

编辑 | 萝卜皮

深度生成模型在药物从头设计领域受到广泛关注。然而,针对新靶点合理设计配体分子仍然具有挑战性,特别是在控制生成分子的性质方面。

在这里,受到 DNA 编码化合物库技术的启发,湖南大学和西安电子科技大学的研究人员提出了 DeepBlock,这是一种基于块(block)的配体生成深度学习方法,可根据目标蛋白质序列进行定制,同时实现精确的属性控制。

此外,DeepBlock 还可以结合优化算法和深度学习来调控生成分子的性质。

该研究以「A deep learning approach for rational ligand generation with toxicity control via reactive building blocks」为题,于 2024 年 11 月 8 日发布在《Nature Computational Science》。

图片

寻找能够与特定蛋白质结合的小分子配体是药物发现中的关键环节。虚拟筛选已成为一种重要方法,利用计算机程序在小分子库中识别生物活性化合物。然而,虚拟筛选的有效性受到巨大化学空间和所用化合物库的限制。

相比之下,从头药物设计策略(从头生成分子结构)提供了一种有希望的途径,可以探索现有库之外更广阔的化学空间。

近年来,这些模型在分子生成上取得了显著进展,但它们通常缺乏针对特定蛋白质靶标的生成能力,因此需要通过额外筛选或结合强化学习等技术来弥补。此外,生成分子的可合成性和药物的毒性、代谢等特性也需在实际药物开发中予以考虑。

DNA 编码化合物库技术已成为一种广泛接受的湿实验室药物发现方法。该方法利用组合化学通过分子构件的反应快速生成大量候选化合物。

DeepBlock

受 DNA 编码化合物库技术的启发,湖南大学和西安电子科技大学的研究团队提出了一种基于深度学习的框架 DeepBlock,利用分子构件进行从头药物设计。这里的构件表示能够相互发生化学反应的分子片段。

图片

图示:DeepBlock 框架概述。(来源:论文)

DeepBlock 的核心理念是将分子生成过程分解为两个连续步骤:首先,根据蛋白质序列嵌入特征生成构建块,然后将其组装成完整的分子。通过利用这些块的固有属性及其之间的化学相互作用,DeepBlock 可以设计出更优质的合理分子。

基于这一理念,研究人员在 DeepBlock 中设计了有效的机制来解决两个关键任务:根据蛋白质序列定制分子生成和生成过程中的属性控制。

在 DeepBlock 中,该团队加入了块生成网络(BGNet),这是一种条件深度生成模型,旨在根据给定的蛋白质序列生成块序列。BGNet 结合了两个关键特性,可显著提高其性能。

首先,它由一个在大规模分子数据集上预训练的分子块自动编码器构建而成,它包含 10,701 个块的广泛词典,其中包含各种常用的片段。这种预训练扩展了化学空间,并缓解了由于蛋白质-配体对数据集的大小有限而导致的潜在过度拟合。

其次,研究人员在 DeepBlock 中引入了一个关键组件——靶标贡献感知模块。该模块增强了模型自主识别配体与残基之间相互作用的能力,弥补了蛋白质序列中 3D 结构信息的缺失。

BGNet 中这两个特征的结合凸显了其生成多样化和生物活性分子片段的能力,有效地解决了蛋白质序列数据带来的挑战。

图片

图示:优化前后亲和力对比。(来源:论文)

此外,该团队将 BGNet 与模拟退火 (SA) 算法或贝叶斯优化 (BO) 结合使用来控制生成过程,旨在增强其他特性,同时保留其对目标蛋白质的结合亲和力。

图片

图示:优化过程和结果。(来源:论文)

研究团队还进行了以药物毒性为优化目标的实验。当与以毒性为优化目标的模拟退火或贝叶斯优化相结合时,DeepBlock 成功生成具有低毒性的配体,同时保留与靶标的亲和力。

未来工作

该方法也存在局限性。

DeepBlock 目前只能从现有的块字典中生成块,因此限制了其生成的分子的多样性。

该团队未来的研究方向是探索从头生成块的方法,从而将该模型从现有字典块的限制中解放出来,并释放其可以创建的分子的更大多功能性和新颖性的潜力。

此外,DeepBlock 生成二维 (2D) 分子结构作为 SMILES 字符串,提供可控属性和对新目标的适用性。虽然 SMILES 字符串为各种药物开发场景提供了足够的结构信息,但它们缺乏 3D 结构细节。

未来的研究将侧重于将该方法与 LiGAN 等方法相结合,以开发基于分子构建块的受控 3D 分子生成方法。这种混合方法可以结合 2D 和 3D 药物设计方法的优势,从而有可能提高药物发现的效率和有效性。

论文链接:https://www.nature.com/articles/s43588-024-00718-0

相关资讯

识别精度高达76.32%,浙大、之江团队用深度学习加速大规模药物发现和再利用

编辑 | 萝卜皮大规模药物研发和再利用具有挑战性。确定作用机制 (MOA) 至关重要,但目前的方法成本高昂且通量低。在这里,浙江大学、之江实验室以及斯坦福大学的研究人员介绍了一种通过分析线粒体表型变化来识别 MOA 的方法。通过对线粒体形态和膜电位进行时间成像,研究人员建立了监测时间分辨线粒体图像的流程,得到了一个数据集,其中包含 570,096 张暴露于 1,068 种美国食品和药物管理局批准药物的细胞单细胞图像。该团队开发了一种名为 MitoReID 的深度学习模型,该模型使用重新识别 (ReID) 框架和 I

「机器学习之父」Mitchell 撰文:AI 如何加速科学发展,美国如何抓住机遇

编辑 | ScienceAI近日,卡内基梅隆大学(Carnegie Mellon University)教授,有着「机器学习之父」之称的 Tom M. Mitchell 撰写了新的 AI for Science 白皮书,重点讨论了「人工智能如何加速科学发展?美国政府如何帮助实现这一目标?」这一主题。ScienceAI 对白皮书原文进行了不改变原意的全文编译,内容如下。人工智能领域最近取得了显著进展,包括 GPT、Claude 和 Gemini 等大型语言模型,因此提出了这样一种可能性:人工智能的一个非常积极的影响,

「两全其美」,从头设计分子,深度学习架构S4用于化学语言建模

编辑 | KX生成式深度学习正在重塑药物设计。化学语言模型 (CLM) 以分子串的形式生成分子,对这一过程尤为重要。近日,来自荷兰埃因霍芬理工大学(Eindhoven University of Technology)的研究人员将一种最新的深度学习架构(S4)引入到从头药物设计中。结构化状态空间序列(Structured State Space Sequence,S4)模型在学习序列的全局属性方面表现卓越,那么 S4 能否推进从头设计的化学语言建模?为了给出答案,研究人员系统地在一系列药物发现任务上对 S4 与最先