作者 | 康奈尔大学 Fengqi You 团队
编辑 | ScienceAI
康奈尔大学Fengqi You教授团队,通过结合量子计较(QC)与生成式AI的优势,提出了一个新颖的逆向份子安排框架。
该框架利用QC协助的深度进修模型来进修和模拟化学空间,从而展望并生成具有特定化学性子的份子结构。生成式AI在此过程中起着核心作用,它能够从大量的份子数据中进修潜伏的结构-性子关系,并生成新的份子候选物,这些份子不仅符合预设的性子,还考虑到合成的可行性。
量子计较的加入则为这一过程提供了高效的计较能力和优化算法,克服了传统计较机在处理大规模化学系统时的性能瓶颈。通过这种量子-经典混合计较框架,研究人员能够在复杂的化学空间中进行高效、有效的份子安排,为新份子的发现和材料科学的进步开辟了新途径。
相关研究以《Molecular design with automated quantum computing-based deep learning and optimization》为题,发表在《npj Computational Materials》上。
论文链接:https://www.nature.com/articles/s41524-023-01099-0
研究背景
份子安排 Vs 逆向份子安排
份子安排(Molecular Design)通常是鉴于现有知识和原理来创建新份子的过程,科学家们依据对化学结构和性子的理解来安排和合成新份子。这一过程涉及到从理论出发,展望新份子的性子,并通过实验验证。这种格式在药物开发和新材料创造中扮演着重要角色,它侧重于利用已知的化学信息来推动新份子的发现。
逆向份子安排(Inverse Molecular Design)则是从所需的性子出发,通过计较格式和人工智能技巧在化学空间中搜索或构建能表现这些性子的份子结构。这种数据驱动的格式使得药物发现和功能材料开发更为高效,尤其在需要探索未知化学空间以发现具有特定功能的新份子时更显其优势。逆向安排强调从目的性子出发,逆向推导出可能的份子结构。
相较于传统份子安排,逆向份子安排的优势在于其高度的数据驱动性和计较密集性,允许科学家们在庞大的化学空间中有效地筛选出理想的份子,这在传统格式中是不可想象的。它通过人工智能算法加速了药物筛选和新材料的发现过程,特别是在对未知领域进行探索时,能够发现传统格式可能忽视的结构。这种格式在药物发现和功能材料开发中尤为有用,能够显著提高发现的速度和创新性。
生成式人工智能
随着机器进修以及深度进修技巧的发展,生成式人工智能(Generative AI)在逆向份子安排中的应用,展现了其强大的数据处理和进修能力。通过深度进修模型,如生成对抗网络(GANs)和变分自编码器(VAEs),这些AI系统能够理解和模拟份子数据集的复杂分布,生成符合特定性子要求的新份子。
这些模型分别依靠对抗过程和概率编码来生成数据,其中GANs由竞争的生成器和鉴别器组成,VAEs则通过优化潜伏空间的示意来重构数据。这一技巧大幅提升了在药物安排和新材料发现领域的效率。
尽管如此,生成式AI在实现稳定性和合成可行性方面还存在挑战,并且当数据集质量和量级不足以支持复杂份子结构的进修时,其性能可能受限。因此,尽管生成式AI为逆向份子安排提供了前所未有的工具,但仍需要在算法优化、数据质量提升以及跨学科合作方面进行持续的研究和发展。
研究的主要贡献
1. 提出了一种数据高效的量子-经典混合格式,用于份子性子估计,该格式利用了QC协助进修训练的深度进修模型来提取份子的稳健潜伏示意。
2. 开发了一种鉴于QC的近似优化技巧,利用训练好的性子估计模型以指导的方式探索化学空间并识别具有所需性子的候选份子。
3. 与现有鉴于深度进修的份子安排格式相比,所提出的鉴于量子计较协助的份子安排框架高效地生成了多个具有不同生理化学性子目的的类药物份子。
模型结构
图1:份子生成的QC协助进修和优化策略概述。
图1概述了本研究中用于份子生成的QC协助的进修和优化策略。该图展示了鉴于能量的模型,该模型通过从量子退火器(quantum annealer)抽取样本进行训练,并捕捉份子结构与份子性子之间的关系,然后模型根据习得的关系,通过图卷积神经网络生成具有目的性子的新的份子结构。
此外,另外一个前提能量基模型被用于估计输入份子的自由能并计较目的值。通过量子退火器以迭代方式解决二次无约束二进制优化(QUBO)问题,产生具有所需目的性子的候选份子。
具体实验结果细节如下:
图2中展示了采用不同格式获得的各种输入数据在前馈模型展望性能方面的缺点比较结果。
本文通过训练多个前提能量模型,并结合对比发散(CD)进修与QC协助进修策略,获取了一系列这些潜伏表征。利用相应能量模型的每个潜伏表征,通过前馈网络进行重复实验,以测量相关指标及其统计特性。
在采用鉴于规则的份子描述符作为输入的基准展望模型中,较大的ECFP指纹普遍更适合于展望QED和LogP,而含有MACCS的展望模型在展望可及性分数方面表现更佳。
基线模型采用图卷积神经网络模型生成的指纹,在展望份子的药物样性时显示出显著更高的缺点,但在其它份子性子方面的展望结果相较于合成可及性评分的最低缺点仅增加了13.6%。与此相对,使用经典和QC协助进修技巧训练得到的前提能量模型的潜伏变量示意,虽然其维度较低,却在所有属性目的的展望性能上表现出色。
采用QC协助生成训练得到的潜伏示意的展望模型,不仅在展望缺点上与其他基线模型相当,而且在展望份子的药物样性时表现出最小的缺点。这些计较结果充分证明了通过QC协助进修训练的前提能量模型所得潜伏示意在份子性子展望方面的有效性。
图 2 :采用不同格式获得的各种输入数据在前馈模型展望性能方面的缺点比较结果。
研究者们运用了经过训练的能量基模型,并结合新提出的量子计较(QC)协助优化技巧,对份子的药物样性和分配系数等性子施加了目的前提,实现了有目的的份子生成。
图3展示了这些技巧生成份子的统计数据及其计较性子,并与训练集中满足同样前提的份子进行了比较。这一对比揭示了针对特定属性目的,鉴于QC格式生成的份子确实满足了既定的前提。
然而,某些目的属性下,深度进修格式如CVAE和MGM显示出生成符合要求的份子的能力,而遗传算法GBGA则在这一任务上效率较低,可能需要对每个目的属性进行适应性函数的手动调节。
图3:这些技巧生成份子的统计数据及其计较性子,并与训练集中满足同样前提的份子进行了比较。
图 4:生成份子与训练集中份子的定量比较。
此外,图4中的c和d小图详细描绘了所有生成份子的合成可及性分数(SAS)分布,反映了它们在合成上的难易程度。这些小提琴图表明,QED和LogP值较低的份子在SAS分数上的变异性更大,尽管它们的平均SAS分数相对较高。相反地,药物样性更好和LogP值较高的份子显示出了不同的分布趋势。
研究者还利用t-SNE技巧分析了前提能量模型生成的份子的潜伏示意,这些通过2D嵌入可视化的示意帮助识别份子与其性子之间的关联度。
图5展现了鉴于QED值进行着色的训练集份子和生成份子的2D t-SNE嵌入,以及不同属性目的的份子结构示例,显示出不同属性范围内潜伏示意的区分,这表明所构建的模型能有效地捕捉份子属性之间的复杂关系。
图 5:使用t-SNE格式得到的训练集中份子的二维嵌入。
本研究还采用t-SNE嵌入格式来分析使用训练过的前提能量模型生成的份子的潜伏示意。通过将这些潜伏示意映射到二维空间,有助于揭示份子与其相应性子之间的关联程度。
图5展示了使用t-SNE格式得到的训练集中份子的二维嵌入,以及根据QED属性值进行着色的生成份子。作者在此图中还包括了不同属性目的的份子结构示例。不同属性范围的潜伏示意之间的区分表明,具有相似QED值的份子在空间上相互邻近,这表明构建的鉴于能量的模型成功捕捉了份子与其属性之间的关系,因为具有相似性子的份子在嵌入空间中聚集。