生信工具评测方法:基于蛋白质对的计算机预测工具评估

编辑 | 白菜叶计算机模拟蛋白质功能注释对于缩小因测序加速而导致的对蛋白质活性理解的差距至关重要。 存在多种功能注释方法,而且它们的数量一直在增长,尤其是随着深度学习技术的发展。 但是,目前尚不清楚这些工具是否真的具有预测性。

图片

编辑 | 白菜叶

计算机模拟蛋白质功能注释对于缩小因测序加速而导致的对蛋白质活性理解的差距至关重要。存在多种功能注释方法,而且它们的数量一直在增长,尤其是随着深度学习技术的发展。但是,目前尚不清楚这些工具是否真的具有预测性。

由于科学家不知道有任何方法可以识别功能本体中的新术语,但是他们想知道它们是否至少可以识别与已知蛋白质家族不同源或相差甚远的蛋白质的分子功能。

在这里,埃默里大学(Emory University)的研究人员探索了现有方法在预测数千种此类蛋白质的分子功能方面的潜力和局限性。

该研究以「Functional profiling of the sequence stockpile: a protein pair-based assessment of in silico prediction tools」为题,于 2025 年 1 月 24 日发布在《Bioinformatics》。

图片

瓶颈

细胞中蛋白质含量丰富,功能多样,但实验注释成本高、速度慢,导致大量蛋白质功能未明确。计算注释通过同源性转移功能,但面临三个主要瓶颈:

进化分歧:同源基因可能因进化产生不同功能,导致假阳性或假阴性注释。例如,序列相似但功能不同的蛋白质可能被错误注释,而功能相同但序列差异较大的蛋白质可能被忽略。此外,即使同源基因参与相同分子机制,其效率和速率也可能不同,这些功能差异常被忽视。

实验注释缺乏:现有实验数据有限且偏向特定蛋白质家族和物种,限制了功能转移的准确性。例如,SwissProt 数据库中只有不到 15% 的蛋白质具有实验支持的 GO 注释。这种偏差在新基因组数据的计算注释中进一步放大,导致错误传播。

本体术语局限性:蛋白质功能的模糊性、环境依赖性和层次性难以用现有本体术语精确描述。例如,激酶在多种细胞过程和代谢途径中发挥作用,但其具体功能因环境和细胞区室而异。理想的功能本体应具备广泛适用性、精确性和可扩展性,但目前尚未实现。

图片

图示:蛋白质功能注释的局限性。(来源:论文)

近年来,嵌入表示等新方法在蛋白质结构和功能预测中取得进展,但评估标准仍不完善。CAFA 等实验推动了功能预测方法的发展,但如何准确评估多功能和未知功能的注释仍是挑战。例如,如何衡量一个方法预测部分功能(而非全部功能)的准确性,以及如何处理未知功能的注释问题,仍需进一步研究。

一种新颖的评估方法

在这里,埃默里大学的研究人员提出了一种用于比较功能注释工具的方法和本体盲评估方法。

研究人员将功能预测的挑战转化为识别功能相似的蛋白质对的任务。他们使用这种替代方法来评估蛋白质注释工具在一组「孤儿」蛋白(即没有已知近缘同源物的蛋白质)上的表现。

图片

图示:通过功能相似性评估功能预测。(来源:论文)

通过一系列指标的仔细评估,研究人员发现即使是顶级方法(如 ECPred、GOPredSim、HMMER 和 GhostKOALA)在这些孤儿蛋白上的表现也略显不足。

尽管这些方法使用不同的注释词汇表,只要它们的注释反映了分子功能,该团队通过推导蛋白质相似性评分的方法仍然可以评估它们的性能。然而,跨不同本体的性能比较受到功能空间相互覆盖范围的限制。例如,整个 EC 编号集合仅由约 40% 的 GO 术语(4908 个术语)覆盖。

图片

图示:比较每个注释类别中的方法性能。(来源:论文)

此外,虽然研究人员使用距离指标来评估预测的相似性,但本体结构的固有特性也可能对性能测量产生影响。因此,他们不建议跨本体空间比较方法性能。

在论文中,该团队还从序列和结构的角度探讨了蛋白质功能相似性的定义。基于机器学习的模型(如 ECPred、NetGO 和 GOPredSim)从输入序列中捕捉到的信息不仅仅是序列相似性,这与更多基于序列同源性的算法不同。

然而,功能相似性不仅仅取决于序列或结构的相似性。蛋白质构象的稳健性使得不同或相似的序列能够折叠成不同或相似的结构,从而根据环境需求执行相同或不同的功能。

这项工作另一个关键观察是,在训练深度学习模型用于蛋白质功能注释方面仍有很大的改进空间。无论是专门训练的方法,还是直接应用蛋白质嵌入来识别功能相似的蛋白质对,均未显示出令人满意的结果,这表明需要进一步微调和分析。

虽然近年来蛋白质结构测定取得了巨大进展,但由于缺乏真实注释数据,功能注释方面的类似改进受到限制。然而,替代的评估方法可能为开发更好的模型铺平道路。

尽管所提出的方法具有优势且应用范围广泛,但该团队在标记功能相似的蛋白质「sibling」对方面的能力仅限于计算评估。研究人员使用结构相似性(TM 评分)结合基于深度学习的功能相似性预测(SNN)来高置信度地定义这些 sibling 对,但代价是召回率较低。

通过调整 TM 评分和 SNN 评分阈值,深入探讨了他们的方法具体细节的影响。值得注意的是,报告的关键发现在这些评估中保持一致,且性能评估并未明显偏向任何特定工具。

研究人员表示:「我们相信,未来在识别蛋白质 sibling 注释方面的工作将解决召回率的限制。特别是,应用我们的注释评估可能会促进预测方法和评估技术的协同发展。」

虽然该测试集有助于评估功能注释工具,但它并不能代表功能预测问题的「真实」数据。在这里,唯一可能的其他评估数据来源是蛋白质的新实验注释。

尽管如此,他们相信,像 CAFA 倡议那样使用这些数据,仍然可以从基于「sibling」对的性能评估视角中受益。

论文链接:https://academic.oup.com/bioinformatics/article/41/2/btaf035/7978914

相关资讯

高灵敏探索质谱,滑铁卢、中原AI院团队基于深度学习的端到端方法

编辑 | 萝卜皮基于质谱的蛋白质组学中肽段鉴定对于理解蛋白质功能和动力学至关重要。 传统的数据库搜索方法虽然应用广泛,但依赖于启发式评分函数,必须引入统计估计才能获得更高的鉴定率。 加拿大滑铁卢大学 (University of Waterloo)和中原人工智能研究院(中原 AI 院)的研究团队提出了 DeepSearch,一种基于深度学习的串联质谱端到端数据库搜索方法。

David Baker 利用 AI 设计蛋白质,一招制蛇毒,或将彻底改变蛇咬治疗

编辑丨&蛇中毒是一种严重的个人健康威胁,每年导致约 10 万人死亡和 30 万人永久残疾,尤其是在医疗资源匮乏的地区。 目前的抗蛇毒血清主要依赖于动物血浆提取的多克隆抗体,存在成本高、副作用大、对某些毒素效果有限等问题。 今年诺贝尔化学奖得主 David Baker 团队的一项研究揭示了蛇咬伤治疗可能改变游戏规则。

新SOTA,浙大、中科院深度学习模型可靠、准确预测蛋白-配体,助力药物开发

编辑 | 萝卜皮准确预测蛋白质-配体相互作用对于理解细胞过程至关重要,目前仍面临着诸多挑战。 中国科学院、浙江大学的研究人员提出了 SurfDock,这是一种深度学习方法,通过将蛋白质序列、三维结构图和表面级特征整合到等变架构中来解决这一挑战。 SurfDock 在非欧几里德流形上采用生成扩散模型,优化分子平移、旋转和扭转以生成可靠的结合姿势。