成功率提升15%,浙大、碳硅智慧用LLM进行多属性分子优化,登Nature子刊

编辑 | 萝卜皮优化候选分子的物理化学和功能特性一直是药物和材料设计中的一项关键任务。 虽然人工智能很适合处理平衡多个(可能相互冲突的)优化目标的任务,但是例如多属性标记训练数据的稀疏性等技术挑战,长期以来阻碍了解决方案的开发。 在最新的研究中,浙江大学侯廷军团队、中南大学曹东升团队以及碳硅智慧团队联合开发了一种分子优化工具 Prompt-MolOpt。

图片

编辑 | 萝卜皮

优化候选分子的物理化学和功能特性一直是药物和材料设计中的一项关键任务。

虽然人工智能很适合处理平衡多个(可能相互冲突的)优化目标的任务,但是例如多属性标记训练数据的稀疏性等技术挑战,长期以来阻碍了解决方案的开发。

在最新的研究中,浙江大学侯廷军团队、中南大学曹东升团队以及碳硅智慧团队联合开发了一种分子优化工具 Prompt-MolOpt。

它利用大型语言模型中使用的基于 Prompt 的嵌入来提高 Transformer 优化分子进行特定属性调整的能力。

Prompt-MolOpt 擅长处理有限的多属性数据(即使在零样本设置下),因为它可以有效地概括从单属性数据集中学习到的因果关系。

在与 JTNN、hierG2G 和 Modof 等成熟模型的比较评估中,与领先的 Modof 模型相比,Prompt-MolOpt 的多属性优化成功率相对提高了 15% 以上。

此外,Prompt-MolOpt 的一个变体,即 Prompt-MolOptP,可以在结构变换下保留药效团或任何用户指定的片段,进一步拓宽其应用范围。

通过构建定制的优化数据集,Prompt-MolOpt 将分子优化引导至与领域相关的化学空间,从而提高优化分子的质量。

该研究以「Leveraging language model for advanced multiproperty molecular optimization via prompt engineering」为题,于 2024 年 10 月 21 日发布在《Nature Machine Intelligence》

图片

在材料和分子设计领域,目标从来都不是简单的,也从来都不是单一的。设计任务通常必须满足许多(有时甚至可能相互冲突的)约束,例如要求候选药物具有高效力和特异性。

然而,研究人员通常会简化问题,并在漫长的设计过程的初始阶段专注于发现满足一些主要先决条件的分子。例如,在药物设计中,首先通过筛选确定的命中化合物必须对特定的分子靶标表现出强活性。

在关键的药物形成特性(如功效、安全性和药代动力学)之间实现平衡是一项具有挑战性的多目标优化。当前的分子优化方法主要针对单目标优化。

LLM 结合 Prompt 来灵活应对

大型语言模型 (LLM)(例如 GPT-3)最近已成为计算领域的关键实体,并在多学科领域获得了广泛关注。

这些 LLM 的一个显著特点是它们善于利用 Prompt,这使它们具有无与伦比的零次和少次学习能力,以及在一系列任务中独特的多功能性。

在分子优化中,基于 Prompt 的技术的应用可以有效地定制模型以解决复杂的优化目标,从而克服传统的多目标障碍。

这种灵活的方法有助于描绘复杂的目标函数,从而避免了多目标优化中长期存在的需要明确构建多目标函数的瓶颈。

这种灵活性在药物研发领域尤为重要,因为药物研发领域经常受到数据稀缺的阻碍。

Prompt-MolOpt

浙江大学、中南大学、碳硅智慧的研究人员认为,通过使用具有特定于属性的 token 嵌入的 Prompt,可以充分利用现有数据(无论多么稀疏)来实现零次和少量学习能力,从而缓解因数据稀缺而引起的问题。

该团队通过引入基于多功能 Transformer 架构的 Prompt 驱动分子优化方案 Prompt-MolOpt 来支持他们的观点。

图片

图示:Prompt-MolOpt 的整体工作流程。(来源:论文)

值得注意的是,子结构掩码解释 (SME) 方法提供了类似于 MMPA 的单属性优化方法。通过使用它,研究人员可以为任何可以构建预测模型的属性生成领域相关的分子优化训练数据集,从而作为 Prompt-MolOpt 的训练基础。

该团队最初使用多图注意神经网络(MGA)构建一个多任务属性预测模型,该模型能够生成特定于属性的原子节点嵌入。在分子结构优化过程中,通过向原子标记添加特定属性的嵌入,引入 Prompt 来引导优化朝着指定属性的方向发展。

测试结果表明,该方法在多属性优化方面的表现远远优于现有方法。此外,该模型展示了少样本学习和零样本学习的潜力,与分子优化中的实际应用场景非常吻合。

图片

图示:分子优化数据集的构建。(来源:论文)

这种创新方法可以精确指定需要保存的分子结构,同时巧妙地优化剩余的结构,产生符合所需特性的分子。通过药效团注释和 Prompt,Prompt-MolOpt 促进了 AI 与领域专家之间的互动协作。

这种协同作用使专家能够指导优化过程,无论是通过药效团注释保留关键结构元素,还是使用特定 Prompt 灵活选择优化属性。

与 JTNN、hierG2G 和 Modof 等成熟模型相比,Prompt-MolOpt 在多属性优化方面表现出色,多属性优化成功率相对提高了 15% 以上。

Prompt-MolOpt 的一个显著优势是其零样本学习能力,即使在没有直接进行多属性训练的情况下也能提供令人称赞的性能。

值得注意的是,分子优化任务的成功复制,特别是在改善 BBBP 和减轻 hERG 心脏毒性方面,凸显了 Prompt-MolOpt 在实际应用中的显著有效性。

认识到在实际分子优化中保留药效团的共同要求,研究人员提出了一种可以修复这些关键结构的模型变体(Prompt-MolOptp),从而允许有针对性的优化,同时保留所需的药效团。

图片

图示:Prompt-MolOptp 分子优化框架概述。(来源:论文)

现实世界的优化案例(例如涉及血脑屏障通透性优化的测试)证实了 Prompt-MolOptp 的有效性,揭示了其在分子结构优化中的巨大潜力,并为多目标结构优化提供了一条有潜力的途径。

图片

图示:Prompt-MolOptp 现实世界的多属性和多站点 BBBP 优化案例研究。(来源:论文)

此外,Prompt-MolOpt 的综合工作流程适用于各个领域的类似分子优化任务,不仅限于药物发现,使其成为分子优化的有效工具。

改进空间

尽管取得了这些进步,Prompt-MolOpt 仍有改进空间。

首先,当前的优化没有充分整合目标信息以考虑活性。虽然研究人员将活性视为可优化属性(DRD2)或通过固定的药学大分子保留它,但利用目标蛋白质的 3D 数据将与现实世界的药物设计场景更加契合。

其次,目前的方法并非专门用于处理手性,而手性对分子的物理化学性质有重大影响。手性是结构-活性关系中一个长期存在的挑战,解决手性问题需要进一步探索。

第三,在构建数据集时,这里依赖于 Murcko 子结构、逆合成有趣的化学子结构 (BRICS) 和功能基团的破坏,而不合并其他子结构,如生物电子等排体。在数据集构建中扩展更多的子结构将进一步增强模型的泛化能力。

同时,研究人员强调这三个挑战更像是有待实施的工程任务,而不是根本性的障碍。

结语

总之,Prompt-MolOpt 在多属性任务优化方面表现出了巨大的潜力,有望成为先进分子设计的强大工具。重要的是,除了药物分子,这个流程很容易适应其他分子优化工作。

论文链接:https://www.nature.com/articles/s42256-024-00916-5

相关资讯

「两全其美」,从头设计分子,深度学习架构S4用于化学语言建模

编辑 | KX生成式深度学习正在重塑药物设计。化学语言模型 (CLM) 以分子串的形式生成分子,对这一过程尤为重要。近日,来自荷兰埃因霍芬理工大学(Eindhoven University of Technology)的研究人员将一种最新的深度学习架构(S4)引入到从头药物设计中。结构化状态空间序列(Structured State Space Sequence,S4)模型在学习序列的全局属性方面表现卓越,那么 S4 能否推进从头设计的化学语言建模?为了给出答案,研究人员系统地在一系列药物发现任务上对 S4 与最先

AI 驱动化学空间探索,大语言模型精准导航,直达目标分子

作者 | 「深度原理」陆婕妤编辑 | ScienceAI现代科学研究中,化学空间的探索是化学发现和材料科学的核心挑战之一。 过渡金属配合物(TMCs)的设计中,由金属和配体组成的庞大化学空间为多目标优化的搜索带来了难度。 为了解决这一问题,来自「深度原理」 (Deep Principle) 和康奈尔大学的研究者们开发了一种名为 LLM-EO(Large Language Model for Evolutionary Optimization)的新型工作流程算法,释放大型语言模型(LLM)的生成和预测潜能,显著提高了化学空间探索的效率。

打破GNN与语言模型间壁垒,图辅助多模态预训练框架用于催化剂筛选,登Nature子刊

编辑 | KX吸附能是一种反应性描述符,必须准确预测,才能有效地将机器学习应用于催化剂筛选。 该过程涉及在催化表面上的不同吸附构型中找到最低能量。 尽管图神经网络在计算催化剂系统的能量方面表现出色,但它们严重依赖原子空间坐标。