编辑 | 白菜叶
计算机模拟蛋白质功能注释对于缩小因测序加速而导致的对蛋白质活性理解的差距至关重要。存在多种功能注释方法,而且它们的数量一直在增长,尤其是随着深度学习技术的发展。但是,目前尚不清楚这些工具是否真的具有预测性。
由于科学家不知道有任何方法可以识别功能本体中的新术语,但是他们想知道它们是否至少可以识别与已知蛋白质家族不同源或相差甚远的蛋白质的分子功能。
在这里,埃默里大学(Emory University)的研究人员探索了现有方法在预测数千种此类蛋白质的分子功能方面的潜力和局限性。
该研究以「Functional profiling of the sequence stockpile: a protein pair-based assessment of in silico prediction tools」为题,于 2025 年 1 月 24 日发布在《Bioinformatics》。
瓶颈
细胞中蛋白质含量丰富,功能多样,但实验注释成本高、速度慢,导致大量蛋白质功能未明确。计算注释通过同源性转移功能,但面临三个主要瓶颈:
进化分歧:同源基因可能因进化产生不同功能,导致假阳性或假阴性注释。例如,序列相似但功能不同的蛋白质可能被错误注释,而功能相同但序列差异较大的蛋白质可能被忽略。此外,即使同源基因参与相同分子机制,其效率和速率也可能不同,这些功能差异常被忽视。
实验注释缺乏:现有实验数据有限且偏向特定蛋白质家族和物种,限制了功能转移的准确性。例如,SwissProt 数据库中只有不到 15% 的蛋白质具有实验支持的 GO 注释。这种偏差在新基因组数据的计算注释中进一步放大,导致错误传播。
本体术语局限性:蛋白质功能的模糊性、环境依赖性和层次性难以用现有本体术语精确描述。例如,激酶在多种细胞过程和代谢途径中发挥作用,但其具体功能因环境和细胞区室而异。理想的功能本体应具备广泛适用性、精确性和可扩展性,但目前尚未实现。
图示:蛋白质功能注释的局限性。(来源:论文)
近年来,嵌入表示等新方法在蛋白质结构和功能预测中取得进展,但评估标准仍不完善。CAFA 等实验推动了功能预测方法的发展,但如何准确评估多功能和未知功能的注释仍是挑战。例如,如何衡量一个方法预测部分功能(而非全部功能)的准确性,以及如何处理未知功能的注释问题,仍需进一步研究。
一种新颖的评估方法
在这里,埃默里大学的研究人员提出了一种用于比较功能注释工具的方法和本体盲评估方法。
研究人员将功能预测的挑战转化为识别功能相似的蛋白质对的任务。他们使用这种替代方法来评估蛋白质注释工具在一组「孤儿」蛋白(即没有已知近缘同源物的蛋白质)上的表现。
图示:通过功能相似性评估功能预测。(来源:论文)
通过一系列指标的仔细评估,研究人员发现即使是顶级方法(如 ECPred、GOPredSim、HMMER 和 GhostKOALA)在这些孤儿蛋白上的表现也略显不足。
尽管这些方法使用不同的注释词汇表,只要它们的注释反映了分子功能,该团队通过推导蛋白质相似性评分的方法仍然可以评估它们的性能。然而,跨不同本体的性能比较受到功能空间相互覆盖范围的限制。例如,整个 EC 编号集合仅由约 40% 的 GO 术语(4908 个术语)覆盖。
图示:比较每个注释类别中的方法性能。(来源:论文)
此外,虽然研究人员使用距离指标来评估预测的相似性,但本体结构的固有特性也可能对性能测量产生影响。因此,他们不建议跨本体空间比较方法性能。
在论文中,该团队还从序列和结构的角度探讨了蛋白质功能相似性的定义。基于机器学习的模型(如 ECPred、NetGO 和 GOPredSim)从输入序列中捕捉到的信息不仅仅是序列相似性,这与更多基于序列同源性的算法不同。
然而,功能相似性不仅仅取决于序列或结构的相似性。蛋白质构象的稳健性使得不同或相似的序列能够折叠成不同或相似的结构,从而根据环境需求执行相同或不同的功能。
这项工作另一个关键观察是,在训练深度学习模型用于蛋白质功能注释方面仍有很大的改进空间。无论是专门训练的方法,还是直接应用蛋白质嵌入来识别功能相似的蛋白质对,均未显示出令人满意的结果,这表明需要进一步微调和分析。
虽然近年来蛋白质结构测定取得了巨大进展,但由于缺乏真实注释数据,功能注释方面的类似改进受到限制。然而,替代的评估方法可能为开发更好的模型铺平道路。
尽管所提出的方法具有优势且应用范围广泛,但该团队在标记功能相似的蛋白质「sibling」对方面的能力仅限于计算评估。研究人员使用结构相似性(TM 评分)结合基于深度学习的功能相似性预测(SNN)来高置信度地定义这些 sibling 对,但代价是召回率较低。
通过调整 TM 评分和 SNN 评分阈值,深入探讨了他们的方法具体细节的影响。值得注意的是,报告的关键发现在这些评估中保持一致,且性能评估并未明显偏向任何特定工具。
研究人员表示:「我们相信,未来在识别蛋白质 sibling 注释方面的工作将解决召回率的限制。特别是,应用我们的注释评估可能会促进预测方法和评估技术的协同发展。」
虽然该测试集有助于评估功能注释工具,但它并不能代表功能预测问题的「真实」数据。在这里,唯一可能的其他评估数据来源是蛋白质的新实验注释。
尽管如此,他们相信,像 CAFA 倡议那样使用这些数据,仍然可以从基于「sibling」对的性能评估视角中受益。
论文链接:https://academic.oup.com/bioinformatics/article/41/2/btaf035/7978914