编辑 | 萝卜皮
基因本质论(Gene Ontology,GO)是一种正义理论,目前拥有超过 100,000 条正义,描述了三个子本质中蛋白质的份子功效、生物历程和细胞位置。
利用 GO 预计蛋白质的功效需要模型拥有进修和推理能力。科学家已经开发出多种格式来自动预计蛋白质功效,但有效利用 GO 中的所有正义进行常识增强进修仍然是一个挑战。
阿卜杜拉国王科技大学(King Abdullah University of Science & Technology,KAUST)的研讨职员开发了 DeepGO-SE,这是一种利用预训练的大型谈话模型根据蛋白质序列预计 GO 功效的格式。
DeepGO-SE 可生成多个 GO 相似模型,然后神经网络预计这些相似模型中有关蛋白质功效的陈述的真值。该团队汇总了多个模型的真值,以便 DeepGO-SE 在预计蛋白质功效时相似语义包含。
利用多个基准测试表明,与最先进的格式相比,该格式有效地利用了 GO 中的背景常识并改进了蛋白质功效预计。
该研讨以「Protein function prediction as approximate semantic entailment」为题,于 2024 年 2 月 14 日发布在《Nature Machine Intelligence》。
论文链接:https://www.nature.com/articles/s42256-024-00795-w
蛋白质功效预计仍有挑战
蛋白质功效预计是生物学和生物信息学的关键挑战,对于识别药物靶点、了解疾病机制和改善生物技术在工业中的应用等任务是必要的。虽然预计蛋白质结构的准确性在近年来有所提高,但由于已知功效数量较少且其复杂性和相互作用,预计蛋白质功效仍然具有挑战性。
蛋白质的功效是利用基因本质论(Gene Ontology,GO)来描述的,包括描述单个蛋白质的份子功效(MFO)、蛋白质可贡献的生物历程(BPO)以及蛋白质活跃的细胞成分 (CCO)。这些正文通常传播到同源蛋白,因此,UniProtKB/Swiss-Prot 数据库包含针对数千种生物体和超过 550,000 个蛋白质手动整理的 GO 正文。
最新的蛋白质功效预计格式往往依赖于不同的信息来源,例如序列、相互作用、蛋白质三级结构、文献、共表达、系统发育分析或 GO 中提供的信息。这类格式可以利用序列域正文,直接应用深度卷积神经网络(CNN)或谈话模型(例如长短期记忆神经网络和 Transformer),或利用预训练的蛋白质谈话模型来表示氨基酸序列。这类模型还可以通过常识图嵌入、利用 k 最近邻的格式和图卷积神经网络来整合蛋白质-蛋白质相互作用。
然而,许多功效预计格式依赖序列相似性来预计功效。虽然这种格式在应用于具有明确功效且相似的蛋白质时有效,但对于与已知功效域具有很少或几乎没有序列相似性的蛋白质来说,它可能不太可靠。份子功效很大程度上源于结构,具有相似结构的蛋白质可能具有不同的序列。重要的是,具有相似序列的蛋白质可以具有不同的功效,具体取决于它们的活性位点和它们所属的生物体。
另一种思路
本质论是很少用于预计蛋白质功效的另一个信息来源。本质不仅仅是类的集合;相反,本质论是一种形式理论,它利用基于逻辑的谈话指定类的预期含义的某些方面。某些机器进修模型可以利用 GO 正义中包含的背景常识,通过常识增强的机器进修来改进预计。通过将形式正义纳入机器进修模型中,可以在进修或预计历程中利用先验常识,对参数搜索空间施加约束,从而提高进修历程的准确性和效率,并最终做出更好的预计。
以此为理论基础,KAUST 的研讨团队开发了 DeepGO-SE,一种蛋白质功效预计格式,该格式利用预训练的大型蛋白质谈话模型结合神经符号模型来预计蛋白质序列的功效,该神经符号模型将功效预计作为相似语义包含进行。
图示:DeepGO-SE 模型概述。(来源:论文)
研讨职员利用 ESM2 蛋白质谈话模型来生成单个蛋白质的表示。与该团队之前的研发的 DeepGOZero 类似,研讨职员将 ESM2 嵌入投影到由 GO 中的正义生成的嵌入空间(ELEmbeddings)中。
论文链接:https://doi.org/10.1093/bioinformatics/btac256
ELEmbeddings 基于几何形状和几何关系对本质正义进行编码,并对应于 Σ 代数或「世界模型」,研讨职员可以在其中确定陈述是真是假。与 DeepGOZero 相比,研讨职员利用这些世界模型来执行「语义包含」:当且仅当 Φ 在每个世界模型中都为真,并且 T 中的所有语句都为真时,语句 Φ 才由理论 T (T⊧Φ) 包含。
虽然一般来说,对于理论 T 或陈述 Φ 有无限多个这样的世界模型,但是该格式进修多个但有限个这样的模型,并生成函数的预计作为「相似」语义包含,研讨职员在每个生成的世界模型中测试真实性。利用这种形式的相似语义包含,研讨职员证明了 GO 扩展版本中的正义增强了份子功效的预计。
此外,该团队通过以蛋白质-蛋白质相互作用网络的形式整合有关生物体蛋白质组和相互作用组的信息,改进了对复杂生物历程和细胞成分的预计。结果表明,与份子功效不同,生物历程和细胞成分正文的预计可以从蛋白质-蛋白质相互作用中受益匪浅。
对于生物历程,研讨职员发现整合预计的份子功效和相互作用可以显着提高预计的性能;这一发现表明,生物历程正文的预计不需要特定蛋白质的常识,而只需要它们的份子功效,从而大大扩展了该格式的通用性。
该团队在带有实验正文的数据集上训练和评估他们的模型,该数据集根据序列相似性进行分割,从而确保利用与训练集不共享相似蛋白质的测试集来报告评估。研讨职员发现依赖序列相似性的格式在这种情况下表现不佳,而 DeepGO-SE 显著提高了 GO 所有子本质的预计性能。例如,DeepGOPlus 利用序列相似性和卷积神经网络 (CNN) 来预计函数,但只能依赖 CNN,并且在此测试集上性能下降。
结语
研讨职员在论文里给出了三个主要结论:常识增强的机器进修格式现在能够改进不依赖背景常识的格式;GO 函数预计最好利用单独的分层预计格式来制定;基于 ESM2 的功效预计模型现在可以推广到很大程度上不可见的蛋白质。
尽管 DeepGO-SE 可以仅利用蛋白质序列来预计生物历程和细胞成分,但当该序列与 PPI 结合时,可以实现最佳性能。然而,许多新型蛋白质不具有已知的相互作用,这限制了组合模型在它们上的应用。因此,需要能够基于唯一可用序列准确预计新型蛋白质的 PPI 的格式。未来,该团队计划将基于序列和结构的 PPI 预计器纳入模型中。
此外,DeepGO-SE 能够执行零样本预计,与 DeepGOZero 类似,并且比其他依赖多个序列比对的格式更快地获得预计。这是因为 DeepGO-SE 仅依赖于 ESM2 嵌入,而 ESM2 嵌入的计算速度更快。总体而言,DeepGO-SE 模型比现有的蛋白质功效预计格式有了显著改进,提供了更准确、更全面、更高效的格式。