编辑 | 萝卜皮
蛋白质糖基化是糖基对蛋白质进行的一种翻译后修饰,在细胞的多种生理和病理功能中起着重要作用。
糖蛋白质组学是在蛋白质组范围内研究蛋白质糖基化,利用液相色谱与串联质谱 (MS/MS) 联用技术获取糖基化位点、糖基化水平和糖结构的组合信息。
然而,由于结构决定离子的出现有限,目前糖蛋白质组学的数据库搜索方法通常难以确定聚糖结构。虽然光谱搜索方法可以利用碎片强度来促进糖肽的结构鉴定,但是光谱库构建的困难阻碍了它们的应用。
在最新的研究中,复旦大学的研究人员提出了 DeepGP,一种基于 Transformer 和图神经网络的混合深度学习框架,用于预测糖肽的 MS/MS 光谱和保留时间(RT)。
两个图神经网络模块分别用于捕获分支糖结构和预测糖离子强度。此外,还实施了预训练策略以缓解糖蛋白质组学数据的不足。
该研究以「Deep learning prediction of glycopeptide tandem mass spectra powers glycoproteomics」为题,于 2024 年 7 月 30 日发布在《Nature Machine Intelligence》。
蛋白质翻译后修饰(PTMs)显著增加了蛋白质组的复杂性。糖基化作为最重要的 PTMs 之一,影响超过 50% 的哺乳动物蛋白质,在许多生理和病理过程中起关键作用。
糖基化过程中,糖分子附着在特定氨基酸残基的侧链上,产生结构异质性,导致糖肽异构体的多样性,增加了识别难度。
液相色谱串联质谱(LC-MS/MS)是主要技术,通过碎片离子和分子量结合 RT 来鉴定糖肽。单靠质荷比(m/z)不足以确定糖结构,因此科学家采用光谱匹配方法提高识别灵敏度。然而,构建糖肽 MS/MS 光谱库成本高昂且复杂。
近年来,深度学习在肽 MS/MS 光谱预测方面取得进展。不过,当前糖肽组学数据集的数量相对较少,缺乏标准化的生成糖肽质谱数据的协议,这限制了用于深度学习模型训练的合适数据的可用性。
为此,复旦大学的研究人员提出了 DeepGP,这是一种基于深度学习的混合端到端框架,用于完整的 N-糖肽 MS/MS 光谱和 RT 预测。深度学习框架由预训练的 Transformer 模块和两个图神经网络 (GNN) 模块组成。
图示:模型架构和糖肽MS/MS光谱预测。(来源:论文)
DeepGP 模型接受糖肽作为输入,并编码糖肽的多个特征,包括糖结构、氨基酸序列、PTM类型、PTM位置和前体电荷状态。糖结构由 GNN 嵌入,将糖肽转化为图,其中节点代表单糖。
图示:基于 DeepGP 在合成数据集上对相似聚糖组成进行区分。(来源:论文)
两个 GNN 模块捕获糖结构和预测糖离子强度
研究人员对三种 GNN 架构进行了评估,即图卷积网络(GCN)、图同构网络(GIN)和图注意网络(GAT),用于糖嵌入和 B/Y 离子强度预测。
GCN 利用卷积操作获取节点表示并实施消息传递协议以聚合相邻节点的表示;GIN 在图同构测试中表现出色;GAT 结合注意机制,使模型能够关注输入的最相关部分。
实验结果表明,GCN 在糖嵌入任务中表现最佳,而 GIN 在 B/Y 离子强度预测任务中表现优异,因此选用了 GCN 和 GIN 进行相应分析。
图示:DeepGP 在 MS/MS 预测中的表现。(来源:论文)
预训练策略来缓解糖蛋白质组学数据的不足
DeepGP 使用大量无标注的自然语言数据进行预训练,类似于 BERT 等模型。这一步骤可以使模型在正式训练之前就获得一定的知识基础,从而在面对小规模标注数据时表现得更好。
多个生物数据集上进行测试
研究人员使用小鼠和人类样本数据集证明了 DeepGP 的 MS/MS 和 RT 预测的高精度。
图示:DeepGP 结合 pGlyco3(一种糖肽搜索方法)进行糖肽鉴定。(来源:论文)
DeepGP 在合成和生物数据集上的全面基准测试验证了其区分相似聚糖的有效性。DeepGP 与数据库搜索相结合可以提高糖肽检测灵敏度。
论文链接:https://www.nature.com/articles/s42256-024-00875-x