准确预测蛋白质功能新SOTA,中南大学推出全新深度学习模型,登Nature子刊

编辑丨&预测蛋白质功能的计算方法对于理解生物学机制和治疗复杂疾病具有重要意义。 然而,现有的预测计算方法缺乏可解释性,难以理解蛋白质结构和功能之间的关系。 在研究中,来自中南大学的团队提出了一种基于深度学习的解决方案,名为 DPFunc,用于使用域引导的结构信息进行准确的蛋白质功能预测。

准确预测蛋白质功能新SOTA,中南大学推出全新深度学习模型,登Nature子刊

编辑丨&

预测蛋白质功能的计算方法对于理解生物学机制和治疗复杂疾病具有重要意义。然而,现有的预测计算方法缺乏可解释性,难以理解蛋白质结构和功能之间的关系。

在研究中,来自中南大学的团队提出了一种基于深度学习的解决方案,名为 DPFunc,用于使用域引导的结构信息进行准确的蛋白质功能预测。

DPFunc 可以在结构域信息的指导下检测蛋白质结构中的重要区域并准确预测相应的功能。它优于当前最先进的方法,并与现有的基于结构的方法相比取得了显著改进。

他们的研究成果以「DPFunc: accurately predicting protein function via deep learning with domain-guided structure information」为题,于 2025 年 1 月 2 日刊登在《Nature Communications》。

准确预测蛋白质功能新SOTA,中南大学推出全新深度学习模型,登Nature子刊

详细分析表明,结构域信息的引导有助于 DPFunc 进行蛋白质功能预测,能够检测蛋白质结构中与其功能密切相关的关键残基或区域。故而,该方法是大规模蛋白质功能预测的有效工具。

DPFunc 概述

DPFunc 是一种基于深度学习的方法,用于使用域引导结构信息进行蛋白质功能预测。

它由三个模块组成:基于预先训练的蛋白质语言模型和图神经网络的残基级特征学习模块;蛋白质水平特征学习模块;蛋白质功能预测模块。

准确预测蛋白质功能新SOTA,中南大学推出全新深度学习模型,登Nature子刊

图 1:DPFunc 的模型架构。(图源:论文)

残基水平特征学习模块将蛋白质序列和结构作为输入。它首先从预训练的蛋白质语言模型(ESM-1b)中为每个残基生成初始特征,根据相应的蛋白质结构构建接触图。随后,这些接触图和残基层特征被进一步馈送到几个图神经网络(GCN)层中,以更新和学习最终的残基层特征。

为了评估不同残基的重要性,受 transformer 结构的启发,团队引入了一种注意力机制,将蛋白质水平的结构域特征和残基水平特征交织在一起,从而检测每个残基的重要性。

预测结果通过通用的后处理程序进行处理,以确保与基因本体论(GO)项结构的一致性。

为了获得模型的性能,团队将其与与仅基于序列和两种基于结构的方法进行公平比较。他们采用了以前使用过的数据集,在其他模型平均得分近似的情况下,新模型的性能超过了现有模型一大截。这一发现表明,蛋白质序列中包含的结构域信息为蛋白质功能预测提供了有价值的见解。

模型性能分析

团队根据不同的时间戳将大规模数据集划分为训练集、验证集和测试集。与以前使用的 PDB 数据集不同,这个大规模数据集包含更多的蛋白质和相应的附加信息。

为了确保公平的比较,标准化的方式被应用于后续的所有处理过程。

准确预测蛋白质功能新SOTA,中南大学推出全新深度学习模型,登Nature子刊

图 2:模型性能的详细分析(图源:论文)

除了整体性能之外,DPFunc 还擅长预测具有高 IC 值特征的信息性 GO 项。由于这些项出现次数少且训练样本有限,因此带来了更大的挑战。在预测样本较少的 GO 项时,DPFunc 的性能始终优于其他方法。

DPFunc 表现出优于 SOTA 方法的明显优势,特别是它能够处理具有低序列同一性的不可见蛋白质、具有高 IC 值的信息性 GO 项以及具有更深节点的特定 GO 项。

为了明确证明域信息在 DPFunc 中的关键作用,团队采用平均池化层替换了域注意力块。凭借领域洞察力,DPFunc 的几个模块中的 AUPR 中位数分别提高了 12.0%、14.7% 和 16.3%。这些结果明确证实了整合结构域信息进行蛋白质功能预测的无与伦比的价值。

为了进一步说明 DPFunc 在检测相似结构基序方面的潜力,即使没有序列相似性,团队也进行了两个案例研究。对两种将细胞与外部环境分离的关键质膜蛋白,DPFunc 能够捕捉结构相似性并准确预测功能,即使面对不同的序列也是如此,突显了它在蛋白质功能预测方面的巨大潜力。

除此之外,DPFunc 可有效检测酶功能的重要活性位点。这种非凡的能力归功于图神经网络的强大功能,它可以聚合来自两个相邻活动站点的信息。不过,尽管 DPFunc 有效地进行了检测,但在无序区域寻找活性位点仍然是一个挑战,可能会在未来的模型中进一步探索。

学习模块

团队使用两个数据集来评估其方法的性能。前者是一个非冗余集,通过以 95% 的序列同一性对所有 PDB 链进行聚类。后者是从 UniProt 和 Gene Ontology 数据库中收集的。

DPFunc 整合了这两个模块并预测了蛋白质功能。具体来说,它利用初始残基特征和蛋白质特征来注释功能。此外,一旦该模型经过训练,它就可以根据注意力机制检测结构中的重要残留物。

准确预测蛋白质功能新SOTA,中南大学推出全新深度学习模型,登Nature子刊

图 3:DPFunc 检测到的关键残基。(图源:论文)

小结

结合了结构域引导的结构信息来识别蛋白质结构中的关键区域,从而能够根据潜在结构基序和关键残基准确预测功能。与其他最先进的深度学习方法的全面比较证明了此次提出的方法的优势。

DPFunc 在稀有功能、特定功能和与已知蛋白质序列相似性较低的困难蛋白质方面也优于其他方法。其表现出区分不同结构之间蛋白质的令人印象深刻的能力。DPFunc 可以学习相似的结构基序,即使它们的序列相似性并不如训练集那么高。

DPFunc 仅使用蛋白质序列作为起始量。具体来说,它通过扫描序列生成结构域信息,通过预先训练的蛋白质语言模型提取残基特征,并根据预测的结构构建结构图。

由于蛋白质在细胞环境中执行功能,因此它们的功能会随着环境而动态改变。如何准确预测动态函数是未来需要解决的另一个挑战。

原文链接:https://www.nature.com/articles/s41467-024-54816-8

源代码:https://github.com/CSUBioGroup/DPFunc

相关资讯

华科大团队开发几何三角形感知蛋白质语言模型,预测蛋白质-蛋白质接触

编辑 | 萝卜皮有关相互作用蛋白质之间的残基-残基距离的信息对于蛋白质复合物的结构建模非常重要,并且对于理解蛋白质-蛋白质相互作用的分子机制也很有价值。随着深度学习的出现,人们开发了许多方法来准确预测单体的蛋白质内残基-残基接触。然而,准确预测蛋白质复合物,尤其是异源蛋白质复合物的蛋白质间残基-残基接触仍然具有挑战性。华中科技大学的研究人员开发了一种基于蛋白质语言模型的深度学习方法,通过在深度神经网络中引入三角形更新和三角形自注意力的三角形感知机制来预测蛋白质复合物的蛋白质间残基-残基接触(称为 DeepInter

用基于结构的突变偏好进行蛋白质设计,加州大学、MIT、哈佛医学院团队开发了一种无监督方法

编辑 | 萝卜皮当前最新的蛋白质设计方法,往往依赖于具有多达数百个数百万个参数的大型神经网络,同时并不清楚哪些残基依赖性对于确定蛋白质功能至关重要。加州大学(University of California)、麻省理工学院(Massachusetts Institute of Technology)以及哈佛医学院(Harvard Medical School)的研究人员表明:在不考虑突变相互作用的情况下,单个残基的氨基酸偏好,可以解释 8 个数据集中的大部分甚至有时几乎所有的组合突变效应 (R^2 ~ 78-98%

Nature子刊 | KAUST团队训练大语言模型,进行作为近似语义蕴涵的蛋白质功能预测

编辑 | 萝卜皮基因本体论(Gene Ontology,GO)是一种公理理论,目前拥有超过 100,000 条公理,描述了三个子本体中蛋白质的分子功能、生物过程和细胞位置。使用 GO 预测蛋白质的功能需要模型拥有学习和推理能力。科学家已经开发出多种方法来自动预测蛋白质功能,但有效利用 GO 中的所有公理进行知识增强学习仍然是一个挑战。阿卜杜拉国王科技大学(King Abdullah University of Science & Technology,KAUST)的研究人员开发了 DeepGO-SE,这是一种使用预