改进蛋白突变稳定性预测,清华龚海鹏团队AI蛋白工程模型登Nature子刊

编辑 | KX准确预测蛋白质突变效应在蛋白质工程和设计中至关重要。 近日,清华大学龚海鹏团队提出了一套基于几何学习的模型套件——GeoStab-suite,其中包含 GeoFitness、GeoDDG 和 GeoDTm 三个模型,分别用于预测蛋白质突变后的适应度得分、ΔΔG 和 ΔTm。 GeoFitness 采用专门的损失函数,允许使用深度突变扫描数据库中的大量多标记适应度数据对统一模型进行监督训练。

图片

编辑 | KX

准确预测蛋白质突变效应在蛋白质工程和设计中至关重要。

近日,清华大学龚海鹏团队提出了一套基于几何学习的模型套件——GeoStab-suite,其中包含 GeoFitness、GeoDDG 和 GeoDTm 三个模型,分别用于预测蛋白质突变后的适应度得分、ΔΔG 和 ΔTm。

GeoFitness 采用专门的损失函数,允许使用深度突变扫描数据库中的大量多标记适应度数据对统一模型进行监督训练。为了进一步改进 ΔΔG 和 ΔTm 预测的下游任务,GeoFitness 的编码器被重新用作 GeoDDG 和 GeoDTm 中的预训练模块,来克服缺乏足够标记数据的挑战。

这种预训练策略与数据扩展相结合,显著提高了模型性能和通用性。

在基准测试中,就 Spearman 相关系数而言,GeoDDG 和 GeoDTm 分别比其他最先进的方法高出至少 30% 和 70%。

相关研究以「Improving the prediction of protein stability changes upon mutations by geometric learning and a pre-training strategy」为题,于 10 月 25 日发表在《Nature Computational Science》上。

图片

论文链接:https://www.nature.com/articles/s43588-024-00716-2

蛋白质设计

蛋白质适应度是指蛋白质发挥特定功能的能力,但在不同的实验情况下,通常用不同的指标来量化,例如酶活性、肽结合亲和力和蛋白质稳定性。蛋白质设计和工程的主要目标之一是提高蛋白质适应度,从而提高生物技术和生物制药过程中的蛋白质性能。

在各种蛋白质适应度指标中,蛋白质稳定性备受关注,通常用 ΔG 和 Tm 两个指标来评估。ΔG 表示室温下展开自由能变化,描述蛋白质的热力学稳定性;Tm 代表蛋白质熔化温度,反映蛋白质在温度波动下保持折叠状态的能力。

图片

图示:DMS、ΔΔG 和 ΔTm 数据汇总。(来源:论文)

基于深度突变扫描 (DMS) 数据库可以开发和优化蛋白质适应度预测方法。然而,DMS 数据的多标签特性阻碍了统一预测模型的训练。

与多标记适应度数据不同,突变后蛋白质稳定性的变化明确地由两个指标 ΔΔG 和 ΔTm 定义,实验数据的积累可以开发相应的预测算法。

近年来,ΔΔG 的预测受到了极大的关注。目前的方法主要可分为机制预测器、机器学习预测器和深度学习预测器。与 ΔΔG 预测相比,ΔTm 预测的研究相对较少。

基于几何学习的三个模型

GeoStab 套件包含三个不同的软件程序:GeoFitness、GeoDDG 和 GeoDTm,它们都将蛋白质序列和结构的信息汇总到基于几何学习的编码器中进行预测。

几何编码器采用图注意 (GAT) 神经网络架构,其中节点(一维,1D)代表氨基酸残基,边缘(2D)反映残基间的相互作用。

图片

图示:模型架构示意图概述。(来源:论文)

GeoFitness 是一个统一模型,能够预测所有单个突变的蛋白质变体的适应度景观。具体来说,研究人员设计了一个特殊的损失函数,允许使用 DMS 数据库中的多标记适应度数据训练统一模型。通过这种方式得出的模型避免了实际使用前模型重新训练的先验限制,同时实现了优于其他最先进方法(如 ECNet)的性能。

此外,通过重新利用 GeoFitness 的几何编码器,研究人员开发了两个额外的下游模型 GeoDDG 和 GeoDTm,分别用于预测蛋白质突变后的 ΔΔG 和 ΔTm,模型架构经过专门设计,从而确保预测结果的反对称性。

蛋白质结构信息可以从蛋白质数据库 (PDB) 中获取,也可以使用 AlphaFold2 纯粹基于序列进行预测。因此,研究人员训练了两个版本的 GeoDDG 和 GeoDTm,分别使用后缀「-3D」和「-Seq」来注释依赖于实验结构的版本和实际使用中只需要序列信息的版本。

值得注意的是,研究人员通过两种策略解决了 ΔΔG 和 ΔTm 预测中数据有限的挑战:通过数据收集扩展训练数据以及继承在 DMS 数据库上预训练的 GeoFitness 模型的几何编码器。考虑到蛋白质变体的适应度数据至少比 ΔΔG 和 ΔTm 的数据多一个数量级,以及蛋白质适应度与生物学稳定性的相关性,后一种策略尤其显著提高了模型性能和通用性。

在基准测试集上进行评估时,S669 用于 ΔΔG 和 S571(该研究中的自组集)用于 ΔTm 预测,就预测值和实验值之间的 Spearman 相关系数而言,GeoDDG 和 GeoDTm 分别比其他最先进的方法至少高出 30% 和 70%。

图片

图片

研究人员已经为 GeoStab-suite 建立了一个 Web 服务器,GeoStab-suite 是一套由三个预测因子 GeoFitness、GeoDDG 和 GeoDTm 组成的套件。GeoStab-suite 将成为蛋白质科学领域研究人员的有用工具。

相关资讯

加速蛋白质工程,微软开发蛋白突变效应预测AI框架µFormer

编辑 | KX蛋白质工程是合成生物学领域的重要研究方向之一。近年来,AI 辅助的蛋白质工程逐渐发展成为一种高效的蛋白质分子设计新策略。近日,微软研究院科学智能中心的研究人员提出了深度学习框架 µFormer,其将预训练的蛋白质语言模型与定制设计的评分模块相结合,从而预测蛋白质的突变效应。µFormer 在预测高阶突变体、建模上位(epistatic)相互作用和处理插入方面,实现了最先进的性能。通过将 µFormer 与强化学习框架相结合,可以高效探索广阔的突变空间,涵盖数万亿个突变候选物,来设计活性增强的蛋白质变体

ACL 2021 | 腾讯AI Lab、港中文杰出论文:用单语记忆实现高性能NMT

在 ACL 2021 的一篇杰出论文中,研究者提出了一种基于单语数据的模型,性能却优于使用双语 TM 的「TM-augmented NMT」基线方法。自然语言处理(NLP)领域顶级会议 ACL 2021 于 8 月 2 日至 5 日在线上举行。据官方数据, 本届 ACL 共收到 3350 篇论文投稿,其中主会论文录用率为 21.3%。腾讯 AI Lab 共入选 25 篇论文(含 9 篇 findings)。在不久之前公布的获奖论文中,腾讯 AI Lab 与香港中文大学合作完成的《Neural Machine Tra

Nature子刊 | KAUST团队训练大语言模型,进行作为近似语义蕴涵的蛋白质功能预测

编辑 | 萝卜皮基因本体论(Gene Ontology,GO)是一种公理理论,目前拥有超过 100,000 条公理,描述了三个子本体中蛋白质的分子功能、生物过程和细胞位置。使用 GO 预测蛋白质的功能需要模型拥有学习和推理能力。科学家已经开发出多种方法来自动预测蛋白质功能,但有效利用 GO 中的所有公理进行知识增强学习仍然是一个挑战。阿卜杜拉国王科技大学(King Abdullah University of Science & Technology,KAUST)的研究人员开发了 DeepGO-SE,这是一种使用预