GPU上运行速度比现有模型快3-7倍,IU团队应用全卷积神经网络从事准确的重新肽测序

编辑 | 萝卜皮重新肽测序不依赖于全面的靶序列数据库,这为科学家提供了一种从串连质谱中鉴别新肽的办法。然而,当前的重新测序算法的准确性和覆盖率较低,这阻碍了它们在蛋白质组学中的应用。印第安纳大学(Indiana University,IU)的钻研职员提出了 PepNet,一种用于高精度重新肽测序的全卷积神经网络。PepNet 将 MS/MS 谱(表示为高维向量)作为输入,并输出最佳肽序列及其置信度得分。PepNet 模型应用来自多个人类肽谱库的总共 300 万个高能碰撞解离 MS/MS 谱图从事训练。评估结果表明,

GPU上运行速度比现有模型快3-7倍,IU团队应用全卷积神经网络从事准确的重新肽测序

编辑 | 萝卜皮

重新肽测序不依赖于全面的靶序列数据库,这为科学家提供了一种从串连质谱中鉴别新肽的办法。然而,当前的重新测序算法的准确性和覆盖率较低,这阻碍了它们在蛋白质组学中的应用。

印第安纳大学(Indiana University,IU)的钻研职员提出了 PepNet,一种用于高精度重新肽测序的全卷积神经网络。PepNet 将 MS/MS 谱(表示为高维向量)作为输入,并输出最佳肽序列及其置信度得分。PepNet 模型应用来自多个人类肽谱库的总共 300 万个高能碰撞解离 MS/MS 谱图从事训练。

评估结果表明,PepNet 在肽级精度和位置级精度方面均显著优于当前功能最佳的重新测序算法(例如 PointNovo 和 DeepNovo)。PepNet 可以对数据库搜寻引擎未鉴别的大部分光谱从事测序,因此可以用作数据库搜寻引擎的补充对象,用于蛋白质组学中的肽鉴别。

此外,PepNet 在 GPU 上的运行速度分别比 PointNovo 和 DeepNovo 快 3 倍和 7 倍,因此更适合大规模蛋白质组数据的分析。

该钻研以「Accurate de novo peptide sequencing using fully convolutional neural networks」为题,于 2023 年 12 月 2 日发布在《Nature Communications》。

GPU上运行速度比现有模型快3-7倍,IU团队应用全卷积神经网络从事准确的重新肽测序

过去十年见证了质谱技术的巨大进步,特别是液相色谱耦合串连质谱(LC-MS/MS)。随着通量和灵敏度的进步,LC-MS/MS 已成为对包括人类在内的高等生物体的各种生理(例如疾病)条件下的整个蛋白质组规模的蛋白质功能钻研最广泛应用的办法之一。

在典型的蛋白质组学实验中,获得 MS/MS 谱图后,第一步(可以说是最重要的步骤)是从这些谱图中鉴别肽。人们开发了许多算法来解决这个问题,这些算法主要分为三类:蛋白质数据库搜寻、光谱库搜寻和重新测序。

蛋白质数据库搜寻是肽鉴定的主要办法。肽序列标签法和 Sequest 算法是该类较早的算法。最近的开发包括 Mascot、X!Tandem、OMSSA、MyriMatch、Protein Prospector 和 MSGF+。这些办法将实验光谱与蛋白质数据库中肽生成的理论光谱从事比较,并报告那些可能真实的肽光谱匹配(PSM)。

相比之下,光谱库搜寻办法将新采集的 MS/MS 光谱与包含早期计算分析中应用的先前表征的实验光谱的库从事比较。由于 MS/MS 数据的重复性和再现性的进步以及大量实验光谱的可用性不断进步(例如,来自蛋白质组学数据存储库和大规模合成肽项目),光谱库搜寻办法已被越来越多地采用,并在 X!hunter、SpectraST 和 msSLASH 等软件对象中实施。

最后,重新测序算法尝试直接从 MS/MS 谱图中导出肽序列,而不应用谱库或蛋白质序列数据库等参考资料。许多重新测序算法采用图论公式,通过动态规划算法和自适应评分方案来计算谱图中的最长路径。随着高分辨率 MS 仪器的进步,重新测序算法的功能显著进步,特别是在更庞杂的评分方案中。

近期,DeepNovo 及其后继模型 PointNovo 是应用深度学习算法开发的,该算法可以从大量肽的 MS/MS 谱图中自动学习与肽序列相关的碎片离子模式,并报告了功能的改进。这些办法利用深度神经网络 (DNN) 架构来捕获输入串连质谱中碎片离子之间的依赖性,随后将其用于按顺序构建肽。

尽管这些办法比传统的重新测序算法表现出更好的功能,但钻研职员观察到它们可以对相对较少的长肽从事测序,特别是来自 Charge 3+ MS/MS 谱图,这可能是由于对碎片离子之间庞杂的长程模式从事建模的挑战。另一方面,PredFull 采用的卷积神经网络(CNN)架构从事完整的 MS/MS 谱预测,展示了 CNN 学习 MS/MS 谱中庞杂模式的优势。

因此,IU 的钻研职员开发了一种名为 PepNet 的深度学习模型,与之前的办法相比,该模型显著进步了串连质谱重新肽测序的功能。

GPU上运行速度比现有模型快3-7倍,IU团队应用全卷积神经网络从事准确的重新肽测序

图:PepNet 的神经网络架构。(来源:论文)

钻研职员首先证明 PepNet 能够对人类 MS/MS 谱图从事高精度测序,然后证明 PepNet 可以在来自许多非人类生物体的 MS/MS 数据中始终表现良好。此外,对未鉴别光谱的重新测序结果表明,PepNet 有能力从 MaxQuant 忽略的光谱中发现大量鉴别,产生的鉴别比 MaxQuant 之前检测到的鉴别多几倍。

GPU上运行速度比现有模型快3-7倍,IU团队应用全卷积神经网络从事准确的重新肽测序

图:PepNet、PointNovo 和 DeepNovo 在人类蛋白质组数据集中的 2+ 和 3+ 电荷谱上的准确度和精度覆盖曲线。(来源:论文)

平均而言,在相当的精度水平下,PepNet 可以比其他对象多 2.5-19 倍地测序未鉴别的光谱。

这表明,尽管 PepNet 是应用 MaxQuant 等数据库搜寻对象测序的肽从事训练的,但 PepNet(和其他 de novo 算法)不受训练样本的特定肽知识的限制。因此,PepNet 可以用作蛋白质组数据分析的强大对象,特别是当没有全面的目标蛋白质序列数据库时(例如,在宏蛋白质组学中)。

钻研职员认为,高精度肽测序的能力将使重新肽测序在蛋白质组学数据分析中的应用不断增加。除了论文里介绍的 HCD 谱图肽测序之外,PepNet 还可以扩展到应用其他碎片办法获取的 MS/MS 谱图,例如电子转移解离(ETD)、电子转移/高能碰撞解离(EThcD)、光解离(PD)和红外多光子解离(IRMPD)。这些办法通常被认为会产生庞杂的 MS/MS 谱图,其中嵌入庞杂 MS/MS 谱图的丰富信息有望进步重新肽测序的准确性。

总而言之,PepNet 显著进步了重新肽测序的准确性,因此可以作为数据库搜寻引擎的补充对象,用于蛋白质组学中的肽鉴定。因此,钻研职员认为 PepNet 将进步蛋白质组学数据分析的效率,并造福生命科学钻研。

论文链接:https://www.nature.com/articles/s41467-023-43010-x

给TA打赏
共{{data.count}}人
人已打赏
理论

AI揭示微生物暗卵白:运用机械学习来发现微生物卵白质宇宙中的功效性「暗物质」

2023-12-11 11:31:00

理论

​陶哲轩用 AI 形式化的说明究竟是什么?一文看懂 PFR 想象的前世今生

2023-12-11 15:38:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索