作者 | 佐治亚理工学院王浩瑞
编辑 | ScienceAI
份子发明作为优化问题,因其优化宗旨可能不可微分而带来显著的计算挑战。退化算法(EAs)常用于优化份子发明中的黑箱宗旨,通过随机突变和交叉来遍历化学空间,但这会导致大量昂贵的宗旨评价。
在这项工作中,佐治亚理工学院、多伦多大学和康奈尔大学研究者合作提出了份子说话增强退化优化(MOLLEO),通过将拥有化学知识的预训练大说话模型(LLMs)整合到退化算法中,显著改善了退化算法的份子优化能力。
该研究以《Efficient Evolutionary Search Over Chemical Space with Large Language Models》为题,于 6 月 23 日发布在预印平台 arXix 上。
论文链接:https://arxiv.org/abs/2406.16976
份子发明的巨大计算挑战
份子发明是一个复杂的迭代过程,涉及候选份子的计划、合成、评价和改进,在现实世界有广泛的应用,包括药物计划,材料计划,改善能源,疾病问题等。这个过程通常缓慢且费力,由于复杂的计划条件与评价份子属性通常需要昂贵的评价(如湿法实验、生物测定和计算模拟),即使是近似的计算评价也需要大量资源。
因此,开发高效的份子搜索、预测和生成算法已成为化学领域的一个研究热点,以加速发明过程。特别是,机器学习驱动的法子在快速识别和提出有前途的份子候选物方面发挥了重要作用。
由于问题的重要性,份子优化受到了极大的关注,包括已经发展测试的超过20多种份子计划算法(其中遗传算法和强化学习等组合优化的法子领先于其他生成模型和连续优化算法),详见最近Nature子刊的综述文章。其中效果最佳之一的法子为退化算法(EAs),这些算法的特点是不需要梯度评价,因此非常适合用于份子发明中的黑箱宗旨优化。
然而,这些算法的一个主要缺点是它们随机生成候选结构而不利用恣意特定的信息,从而导致需要大量的宗旨函数评价。因为评价属性的昂贵,份子优化除了找到最佳期待属性的份子结构,同时也要最小化宗旨函数评价次数(也等同于提高搜索效率)。
最近,LLM在多项与化学相关的恣意中表现出了一些基本能力,如预测份子属性、检索最优份子、自动化化学实验和生成具有宗旨属性的份子。由于LLM在包含广泛恣意的大规模文本语料库上进行了训练,它们揭示了通用的说话理解能力和基本的化学知识,使其成为化学发明恣意的有趣工具。
然而,许多鉴于LLM的法子依赖于上下文学习(in-context learning)和提示工程,这在计划具有严格数值宗旨的份子时可能会出现问题,因为LLM可能难以满足精确的数值约束或优化特定的数值宗旨。此外,单纯依赖LLM提示的法子可能会生成物理基础较差的份子,或者生成无法解码为化学结构的无效SMILES字符串。
份子说话增强退化优化
在本研究中,我们提出了份子说话增强退化优化(MOLLEO),该法子将LLM整合到EA中以提高生成候选物的质量并加速优化过程。MOLLEO利用LLM作为遗传操作符,通过交叉或变异生成新的候选物。我们首次揭示了如何将LLM整合到EA框架中以进行份子生成。
在该研究中,我们考虑了三个不同能力强度的说话模型:GPT-4、BioT5和MoleculeSTM。我们将每个LLM整合到不同的交叉和变异程序中,并通过消融研究证明了我们的计划选择。
我们通过多个黑箱优化恣意的实验证明了MOLLEO的优越性能,包括单宗旨和多宗旨优化。对于所有恣意,包括更具挑战性的蛋白质-配体连接,MOLLEO均优于基线EA和其他25个强基线法子。此外,我们还揭示了MOLLEO在ZINC 250K数据库中的最佳JNK3抑制剂份子上进一步优化的能力。
我们的MOLLEO框架鉴于一种简单的退化算法,Graph-GA算法,并通过在遗传操作中整合化学感知的LLM来增强其功能。
我们首先概述了问题陈述,强调在黑箱优化中最小化昂贵宗旨评价的必要性。MOLLEO利用LLM(如GPT-4、BioT5和MoleculeSTM)在宗旨描述的指导下生成新的候选份子。
具体而言,在交叉步骤中,我们不是随机结合两个父份子,而是使用LLM生成最大化宗旨适应度函数的份子。在变异步骤中,操作符根据宗旨描述对当前种群中最适应的成员进行变异。然而,我们注意到LLM并不总是生成适应度高于输入份子的候选物,因此我们构建了选择压力,鉴于结构相似性过滤编辑过的份子。
实验结果
我们在18个恣意上评价了MOLLEO。恣意选自PMO和TDC基准测试和数据库,可以分为以下几类:
鉴于结构的优化:根据宗旨结构优化份子,包括鉴于宗旨份子公式的同分异构体生成(isomers_c9h10n2o2pf2cl)和两个鉴于匹配或避免骨架和亚结构基序的恣意(deco_hop, scaffold_hop)。鉴于名称的优化:包括找到与已知药物相似的化合物(mestranol_similarity, thiothixene_rediscovery)和三个多属性优化恣意(MPO),这些恣意在重新发明药物(如Perindopril, Ranolazine, Sitagliptin)的同时优化其他属性,如疏水性(LogP)和渗透性(TPSA)。尽管这些恣意主要涉及重新发明现有药物而非计划新份子,但它们揭示了LLM具有基本的化学优化能力。属性优化:包括简单的属性优化恣意QED,衡量份子的药物相似性。然后,我们关注PMO中的三个恣意,衡量份子对以下蛋白质的活性:DRD2(多巴胺受体D2),GSK3β(糖原合酶激酶-3β),和JNK3(c-Jun氨基末端激酶-3)。此外,我们还包括了TDC中的三个蛋白质-配体连接恣意(结构性药物计划),这些恣意比简单的物理化学性质更接近现实世界的药物计划。
为了评价我们的法子,我们按照PMO基准测试的法子,综合考虑了宗旨值和计算预算,报告了前k个平均属性值与宗旨函数调用次数的曲线下面积(AUC top-k)。
作为对比基准,我们使用了PMO基准测试中的顶级模型,包括鉴于强化学习的REINVENT、基础退化算法Graph-GA和高斯过程贝叶斯优化GP BO。
图示:单宗旨恣意的Top-10 AUC。(来源:论文)
我们在PMO的12项恣意中进行了单宗旨优化实验,结果上表所示,我们报告了每项恣意的AUC top-10 得分以及各模型的总体排名。结果表明,使用任意一个大型说话模型(LLM)作为遗传操作符,都能提高性能,超过默认的Graph-GA和其他所有基线模型。
GPT-4在12项恣意中有9项表现优于所有模型,揭示了其作为一个通用大说话模型在份子生成中的有效性与前景。BioT5在所有测试模型中取得了第二好的结果,总分接近GPT-4,说明在领域知识上训练与微调的小模型在MOLLEO中也有很好的应用前景。
MOLSTM是鉴于CLIP模型在份子的自然说话描述和份子的化学式上微调的小模型,我们在退化算法中在相同的自然说话描述上使用梯度下降算法来产生不同的新份子,它的表现也优于其他的基准法子。
图示:JNK3抑制随迭代次数增加而出现的群体适应度。(来源:论文)
为了验证将LLM整合到EA框架中的有效性,我们揭示了初始随机份子池在JNK3恣意上的得分分布。随后,我们对池中的所有份子进行了一轮编辑,并绘制了编辑后份子的JNK3得分分布。
结果表明,经过LLM编辑后的分布都略微向更高的得分方向偏移,这表明LLM确实提供了有用的修改。然而,总体宗旨得分仍然较低,因此单步编辑并不足够,在这里使用退化算法进行迭代优化是必要的。
图示:与DRD3、EGFR或腺苷A2A受体蛋白连接时前10个份子的平均连接得分。(来源:论文)
除了PMO中的12个单宗旨优化恣意外,我们还在更具挑战性的蛋白质-配体连接恣意中测试了MOLLEO,这些恣意比单宗旨恣意更接近于现实世界中的份子生成场景。上图是MOLLEO和Graph-GA的前十个最好份子的平均连接评分与宗旨函数调用次数的关系图。
结果表明,在所有三种蛋白质中,我们的法子生成的份子的连接评分几乎都优于基线模型,并且收敛速度更快。在我们使用的三种说话模型中,BioT5表现最佳。在现实中,更好的连接评分和更快的收敛速度可以减少筛选份子所需的生物检测次数,使这一过程在成本和时间上都更有效。
图示:多宗旨恣意的求和和超体积分数。(来源:论文)
图示:Graph-GA和MOLLEO在多宗旨恣意上的帕累托最优可视化。(来源:论文)
对于多宗旨优化,我们考虑了两个指标:所有优化宗旨的得分之和的AUC top-10和帕累托最优集的超体积。我们揭示了多宗旨优化在三个恣意中的结果。恣意1和恣意2受到药物发明宗旨的启发,旨在同时优化三个宗旨:最大化份子的QED、最小化其合成可及性(SA)评分(意味着更容易合成)以及最大化其对JNK3(恣意1)或GSK3β(恣意2)的结合评分。恣意3更加具有挑战性,因为它需要同时优化五个宗旨:最大化QED和JNK3结合评分,以及最小化GSK3β结合评分、DRD2结合评分和SA评分。
我们发明,在所有三个恣意中,MOLLEO(GPT-4)在超体积和总和方面都始终优于基线的Graph-GA。在图中,我们可视化了恣意1和恣意2中我们的法子和Graph-GA的帕累托最优集(在宗旨空间中)。当在引入多个宗旨时,开源的说话模型的性能下降。我们推测这种性能下降可能源于它们无法捕捉大量信息密集的上下文。
图示:使用ZINC 250K中的最佳份子初始化MOLLEO。(来源:论文)
退化算法的最终宗旨是改进初始份子池的性质并发明新份子,为了探索MOLLEO探索新份子的能力,我们用ZINC 250K中的最佳份子初始化份子池,然后使用MOLLEO和Graph-GA进行优化。在JNK3恣意上的实验结果显示,我们的算法始终能优于基线模型Graph-GA,并且能够改进现有数据集中找到的最佳份子。
此外,我们还注意到BioT5的训练集是ZINC20数据库(包含14亿化合物),MoleculeSTM的训练集是PubChem数据库(约25万份子)。我们检查了每个模型在JNK3恣意中生成的最终份子是否出现在相应的数据集中。结果发明,生成的份子与数据集中并没有重叠。这表明模型能够生成新的、未在训练集中出现的份子。
可应用于药物发明、材料、生物份子计划
份子发明和计划是一个具有众多实际应用的丰富领域,许多应用超出了当前研究的范围,但与我们提出的框架仍然相关。MOLLEO将LLM与EA算法结合,通过纯文本的结合方式提供了灵活的算法框架,在未来MOLLEO可以应用于药物发明、昂贵的计算机模拟以及材料或大型生物份子的计划等场景。
未来工作我们将进一步关注如何提高生成份子的质量,包括其宗旨值和发明速度。随着LLM的不断进步,我们预计MOLLEO框架的性能也将继续提升,使之成为生成化学应用中的一个有前景的工具。