AI小份子药物创造的「百科全书」,康奈尔、剑桥、EPFL等研究者综述登Nature子刊

作者 | 康奈尔大学杜沅岂编辑 | ScienceAI随着 AI for Science 受到越来越多的关注,人们更加关心 AI 如何解决一系列科学问题并且可以被成功借鉴到其他相近的领域。AI 与小份子药物创造是其中一个非常有代表性和很早被探索的领域。份子创造是一个非常困难的拉拢优化问题(由于份子布局的离散性)并且搜寻空间非常庞大与崎岖,同时考证搜寻到的份子属性又十分困难,平时需要昂贵的实行,至少是至少是模拟计算、量子化学的方式来提供反馈。随着机器进修的高速发展和得益于早期的探索(包括构建了简单可用的优化目标与效果

AI小份子药物创造的「百科全书」,康奈尔、剑桥、EPFL等研究者综述登Nature子刊

作者 | 康奈尔大学杜沅岂

编辑 | ScienceAI

随着 AI for Science 受到越来越多的关注,人们更加关心 AI 如何解决一系列科学问题并且可以被成功借鉴到其他相近的领域。

AI 与小份子药物创造是其中一个非常有代表性和很早被探索的领域。份子创造是一个非常困难的拉拢优化问题(由于份子布局的离散性)并且搜寻空间非常庞大与崎岖,同时考证搜寻到的份子属性又十分困难,平时需要昂贵的实行,至少是至少是模拟计算、量子化学的方式来提供反馈。

随着机器进修的高速发展和得益于早期的探索(包括构建了简单可用的优化目标与效果衡量方式),大量的算法被研发,包括拉拢优化,搜寻,采样算法(遗传算法、蒙特卡洛树搜寻、强化进修、生成流模型/GFlowNet,马尔可夫链蒙特卡洛等),与连续优化算法,贝叶斯优化,鉴于梯度的优化等。同时现有较为完备的算法衡量基准,比较客观公平的比较方式,也为开发机器进修算法开拓了广阔的空间。

近日,康奈尔大学、剑桥大学和洛桑联邦理工学院(EPFL)的研究人员在《Nature Machine Intelligence》发表了题为《Machine learning-aided generative molecular design》的综述文章。

AI小份子药物创造的「百科全书」,康奈尔、剑桥、EPFL等研究者综述登Nature子刊

论文链接:https://www.nature.com/articles/s42256-024-00843-5

该综述回顾了机器进修在生成式份子计划中的应用。药物创造和开发需要优化份子以满足特定的理化性质和生物活性。然而,由于搜寻空间巨大和优化函数不连续,传统方式既昂贵又容易失败。机器进修通过结合份子生成和筛选步骤,进而加速早期药物创造过程。

AI小份子药物创造的「百科全书」,康奈尔、剑桥、EPFL等研究者综述登Nature子刊

图示:生成式 ML 辅助份子计划流程。

生成性份子计划任务

生成性份子计划可以分为两大范式:漫衍进修和目标导向生成,其中目标导向生成可以进一步分为前提生成和份子优化。每种方式的适用性取决于具体任务和所涉及的数据。

漫衍进修 (distribution learning)

漫衍进修旨在通过对给定数据集份子的概率漫衍建模来描述数据的漫衍,从而从进修到的漫衍中采样新份子 。

前提生成 (conditional generation)

属性前提生成 (property-conditioned generation):生成具有特定属性的布局,可以为一个文字的描述,或者一个具体属性的数值 。份子子布局前提生成(molecular (sub)structure-conditioned generation):生成具有特定布局约束的份子,例如计划部分布局、支架跳跃、连接子计划、重新计划整个布局(先导优化)或整个份子的前提生成(构象生成)。目标前提生成 (target-conditioned generation):旨在生成对特定疾病相关生物份子靶点具有高结合亲和力的份子。与属性前提生成不同,目标前提生成利用对靶点布局的显式访问,通过整合直接的靶点-配体相互作用来提高配体份子与靶点的亲和力 。表型前提生成 (phenotype-conditioned generation):涉及从鉴于细胞的显微镜或其他生物检测读数(如转录组数据)中进修表型指纹,以提供前提信号,指导生成朝向理想的生物学结果的份子。

份子优化 (molecule optimization)

份子优化在药物创造中起着关键作用,通过细化药物候选者的属性来提高其安全性、有效性和药代动力学特性。涉及对候选份子布局进行小的修改,以优化药物性质,如溶解度、生物利用度和靶点亲和力,从而提高治疗潜力并增加临床终点的成功率 。

AI小份子药物创造的「百科全书」,康奈尔、剑桥、EPFL等研究者综述登Nature子刊

图示:生成任务、生成策略和份子表征的图示。

份子生成流程

份子生成是一个复杂的流程包括许多不同的拉拢单元,我们在下图中列出了代表性的工作,并且介绍每一个部分的代表性单元。

份子默示 

在开发份子生成的神经架构时,首先要确定份子布局的机器可读输入和输出默示。输入默示有助于将适当的归纳偏差注入模型,而输出默示则确定了份子的优化搜寻空间。默示类型决定了生成方式的适用性,例如,离散搜寻算法只能应用于图和字符串等拉拢默示。

虽然已经研究了各种输入默示,但对默示类型和编码它们的神经架构的权衡还不明确。份子之间的默示转换并不一定是双射的,例如,密度图和指纹无法唯一识别份子,需要进一步的技术来解决这一非平凡的映射问题。常见的份子默示包括字符串、二维拓扑图和三维几何图 。

鉴于字符串的份子布局:平时编码为字符串,如简化的份子输入线条输入系统(SMILES)或自引用嵌入字符串(SELFIES)。SMILES 用语法规则默示份子,但字符串可能无效;SELFIES 通过修改这些规则确定了份子的有效性。份子字符串平时通过递归网络和 Transformer 模型编码为序列数据 。鉴于拓扑和几何图的原子和键:平时在拓扑图中默示为节点和边。图神经网络(GNNs)常用于建模图布局份子数据,鉴于相邻节点更新节点和边特征。在三维信息可用且相关时,几何 GNNs 常用于捕捉三维空间中的应用相关对称性,如平移和旋转不变性或等变性 。

默示粒度是生成模型计划中的另一个考虑因素。平时,方式利用原子或份子片段作为生成期间的基本组成单元。鉴于片段的默示将份子布局细化为包含原子组的较大单元,携带层次信息,如官能团标识,从而与传统的鉴于片段或药效团药物计划方式对齐 。

生成方式

深度生成模型是一类估计数据概率漫衍并从进修漫衍中抽样的方式(也称为漫衍进修)。其中包括变分自编码器,生成对抗网络,正则化流 (normalizing flows),自回归模型,扩散模型。这些生成方式中的每一种都有其适用的情境和优缺点,具体的选择取决于所需任务和数据特征。

生成策略

生成策略指模型输出份子布局的方式,一般可以分为一次性生成、递次生成或迭代改进 。

一次性生成:一次性生成在模型的单次前向传递中生成完整的份子布局。这种方式平时难以生成具有高精度的真实和合理的份子布局。此外,一次性生成平时不能满足显式约束,如价态约束,这对于确保生成布局的准确性和有效性至关重要。

递次生成:递次生成通过一系列步骤构建份子布局,平时按原子或片段进行。递次生成中容易注入价态约束,从而提高生成份子的质量。然而,递次生成的主要限制是需要在训练期间定义生成轨迹的递次,并且推理速度较慢。

迭代改进:迭代改进通过预测一系列更新来调整预测,避开一次性生成方式中的难点。例如,AlphaFold2 中的循环布局模块成功地将骨架框架精细化,这种方式启发了相关的份子生成策略。扩散模型是一个常见技术,通过一系列降噪步骤生成新数据。目前,扩散模型已应用于多种份子生成问题,包括构象生成、鉴于布局的药物计划和连接子计划。

优化策略

拉拢优化:对于份子(如图或字符串)的拉拢编码,可以直接应用拉拢优化领域的技术 。

连续优化:份子可以在连续域中默示或编码,例如在欧几里得空间中的点云和几何图,或在连续潜在空间中编码离散数据的深度生成模型 。

AI小份子药物创造的「百科全书」,康奈尔、剑桥、EPFL等研究者综述登Nature子刊

生成性机器进修模型的评价

评价生成模型需要计算评价和实行考证。标准指标包括有效性、独特性、新颖性等。评价模型时应综合考虑多个指标,以全面评价生成性能。

实行考证

生成的份子必须通过湿法实行来进行明确的考证,这与现有研究主要关注计算贡献形成鲜明对比。虽然生成模型并非没有弱点,但预测与实行之间的脱节也归因于进行此类考证所需的专业知识、昂贵的费用、以及漫长的测试周期。

AI小份子药物创造的「百科全书」,康奈尔、剑桥、EPFL等研究者综述登Nature子刊

AI小份子药物创造的「百科全书」,康奈尔、剑桥、EPFL等研究者综述登Nature子刊

生成模型规律

大多数报告实行考证的研究使用 RNN 和/或 VAE,并以 SMILES 作为操作对象。我们总结了四个主要观察点:

SMILES 虽然捕捉到的 3D 信息有限,但作为一种高效的默示方式,适用于漫衍进修和小数据集的微调。许多实行考证的研究目标是激酶,这是 ChEMBL 等流行开源数据集中的常见靶点。绝大多数目标导向的方式使用强化进修(单独或作为组件)作为优化算法,包括鉴于配体和鉴于布局的药物计划。AlphaFold 预测的布局可以成功用于生成布局的药物计划。

未来方向

尽管机器进修算法为小份子药物创造带来了曙光,但是还有更多的挑战与机遇需要面对。

挑战

漫衍外生成:已知化学物质只占化学空间的一小部分。虽然深度生成模型可以提出训练漫衍之外的份子,但需要确保其合理性。不现实的问题表述:精确的问题表述对于开发适用于现实世界药物创造的模型至关重要。常常忽略的基本方面包括构象动态、水的作用和熵贡献,而诸如无限访问 oracle 调用的假设也常被错误地认为是理所当然的。这包含了样本效率问题,最近的研究在有限 oracle 预算下的高效目标导向生成方面取得了进展。低保真 oracle:在药物创造相关维度上有效评分计划仍然困难,成为工业环境中部署生成模型的瓶颈。例如,高通量结合亲和力预测在数据驱动和鉴于物理的工作流中平时不准确。虽然存在替代的高精度 oracle,但其计算需求限制了可扩展性。此外,高质量标注数据的不可获取性也成为开发具有高精度和可管理 AI oracle 的障碍。缺乏统一的评价协议:用于评价药物候选物质量的评价协议与我们定义何为良好药物的标准密切相关。ML 社区平时使用的易于计算的物理化学描述符存在疑问,肯定无法全面反映性能。在生成份子计划与虚拟筛选之间进行严格比较也较少见。缺乏大规模研究和基准测试:许多ML方式已经开发出来,但在许多关键任务中的不同模型类型上没有公平的基准测试结果。例如,仅使用了可用数据的一小部分进行训练,限制了对模型可扩展性的理解。最近的基准测试对标准化计算评价协议的重要贡献。缺乏可解释性:可解释性是份子生成模型中一个重要但未充分探索的领域。例如,洞察生成或优化过程如何构建份子可以产生化学规则,这对药物化学家具有解释性。这在小份子领域尤其重要,因为生成模型平时用于向药物化学家提交想法,合成障碍排除了测试所有生成计划的可能性。

机会

超越小份子计划的应用:这里讨论的方式可能在计划其他复杂布局材料(如多糖、蛋白质(特别是抗体)、核酸、晶体布局和聚合物)方面有更广泛的应用。大语言模型展示了通过文本指导的创造和决策作为代理来革新份子计划的潜力,这得益于大量可用的训练数据,包括科学文献。此外,针对份子布局进行定制或微调的模型为研究人员提供了利用自然语言处理中的成熟进展的额外机会。药物开发的后期阶段:份子计划/优化占据了药物创造的早期阶段。然而,由于有限的疗效、较差的 ADME/T(吸收、漫衍、新陈代谢、排泄和毒性)特性和安全问题导致的晚期失败是药物开发管道中的痛点。尽管有限,但将临床数据集成到计划管道中是提高下游成功率的一个有希望的方向。聚焦模型目的:药物创造管道是制药公司多年经验和艰难教训的结果。ML 研究人员应该不仅仅计划纯粹的从头计划模型(特别是在缺乏深度表征能力时),还应计划聚焦于在多年过程中的特定步骤上改进的模型,符合现实约束。自动化实行室:对高通量实行的需求不断增加,以为 ML 计划的份子提供反馈,将越来越多的注意力集中在自动化实行室上,以加快计划–制造–测试–分析循环。

作者: 杜沅岂,康奈尔大学计算机系二年级博士生,主要研究兴趣,几何深度进修,概率模型,采样,搜寻,优化问题,可解释性,与在份子探索领域的应用,具体信息见:https://yuanqidu.github.io/。

给TA打赏
共{{data.count}}人
人已打赏
理论

ICML 2024 | 特性净化:神经搜集会进修不相关特性而泛化失败

2024-6-24 10:44:00

理论

言语≠思想,大模型学不了推理:一篇Nature让AI社区炸锅了

2024-6-24 14:50:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索