分类性能提高 10%,港中大利用大型蛋白质言语模型发现未知信号肽

编辑 | 萝卜皮信号肽 (SP) 对于跨膜和分泌蛋白靶向并将其转移到正确位置至关重要。许多现有的展望 SP 的计算工具忽视了极端的数据不平衡问题,而依赖于蛋白质的额外组信息。香港中文大学的研讨职员开发了无偏生物体不可知信号肽网络(Unbiased Organism-agnostic Signal Peptide Network,USPNet),一种 SP 分类和切割位点展望深度学习法子。大量的实验结果表明,USPNet 的分类性能比之前的法子大幅提高了 10%。USPNet 的 SP 发现流程旨在从宏基因组数据中探

分类性能提高 10%,港中大利用大型蛋白质言语模型发现未知信号肽

编辑 | 萝卜皮

信号肽 (SP) 对于跨膜和分泌蛋白靶向并将其转移到正确位置至关重要。许多现有的展望 SP 的计算工具忽视了极端的数据不平衡问题,而依赖于蛋白质的额外组信息。

香港中文大学的研讨职员开发了无偏生物体不可知信号肽网络(Unbiased Organism-agnostic Signal Peptide Network,USPNet),一种 SP 分类和切割位点展望深度学习法子。

大量的实验结果表明,USPNet 的分类性能比之前的法子大幅提高了 10%。USPNet 的 SP 发现流程旨在从宏基因组数据中探索从未见过的 SP。

它揭示了 347 个 SP 候选物,这些候选物与训练数据集中最接近的 SP 之间的序列同一性很低,最低仅为 13%。此外,训练集中候选物和 SP 之间的模板建模分数大多在 0.8 以上。

这些结果表明,USPNet 已经通过原始氨基酸序列和大型蛋白质言语模型学习了 SP 结构,从而能够发现未知的 SP。

该研讨以「Unbiased organism-agnostic and highly sensitive signal peptide predictor with deep protein language model」为题,于 2023 年 12 月 13 日发布在《Nature Computational Science》。

分类性能提高 10%,港中大利用大型蛋白质言语模型发现未知信号肽

信号肽 (SP) 是一种短氨基酸序列,可作为特定的靶向信号来引导蛋白质并将其转移至分泌途径。它具有三域结构:带正电的 N 区、疏水性的 H 区和不带电的 C 区。SP 作为特定片段引导蛋白质到达正确位置,然后被 C 区附近的切割位点切割。因此,SP 的鉴定对于研讨蛋白质的功能至关重要。

由于 SP 的全面实验鉴定可能非常耗时且耗费资源,因此人们提出了许多计算工具来对 SP 进行分类并展望切割位点。

最近,监督模型在 SP 识别方面取得了很大进展。查询序列被编码为嵌入向量,然后输入模型以直接计算每种 SP 典型的概率。比如:DeepSig将深度卷积神经网络(CNN)架构应用于SP的识别和分离位点位置的展望。此外,SignalP5.0 的出现并对之前提出的所有法子进行了基准测试,而 SignalP6.0 能够展望之前模型无法检测到的所有五种典型的 SP。

这些法子在任意中取得了先进的性能,但大多数都存在极端的类不平衡,因此在小类数据上表现不佳。此外,这些法子通常在很大程度上依赖于有关生物体群体的附加信息来提高其性能。然而,现实中从宏基因组数据中获取足够的群体信息是不切实际的。一个强大的工具应该只需要氨基酸序列就可以产生准确的展望结果。

受到最近开发的蛋白质言语模型的启发,该模型可以隐式编码功能和结构信息并有利于各种下游任意,香港中文大学的研讨团队提出了基于双向长短期记忆 (BiLSTM) 框架和蛋白质言语模型的无偏生物体不可知信号肽展望器 (USPNet),用于对 SP 进行分类并展望其切割位点位置。

分类性能提高 10%,港中大利用大型蛋白质言语模型发现未知信号肽

图:用于展望 SP 和切割位点的 USPNet 工作流程。(来源:论文)

研讨职员利用基于高级多序列比对(MSA)的蛋白质言语模型来丰富表示,从而帮助编码序列的组信息。该团队将类平衡受益与标签分布感知边缘(LDAM)受益结合起来作为 USPNet 的受益函数,从而提高泛化能力。该法子有效地对所有五种典型的 SP 和非 SP 型蛋白质进行分类。

研讨职员将他们的模型与其他几个与任意相关的深度学习模型进行比较。与之前最先进的法子相比,USPNet 在多个类别上的 Matthews 相关系数 (MCC) 提高了 10% 以上。

然后,该团队构建了从处理宏基因组数据到进行未知 SP 检测的完整流程。研讨职员从多个资源收集猪肠道宏基因组数据,最终从数百万个序列中筛选出 347 个肽作为与现有 SP 序列一致性较低且可能是未知SP的候选肽。

分类性能提高 10%,港中大利用大型蛋白质言语模型发现未知信号肽

图:USPNet 在域转移数据上的性能。(来源:论文)

同样,该法子仍有改进的途径。首先,USPNet 的 MSA 过程非常耗时。USPNet-fast 速度提高约 20 倍;因此,用户可能更喜欢使用 USPNet-fast 来节省大量时间。

其次,虽然 USPNet 对于大多数 SP 典型的展望优于以前的法子,但 USPNet-fast 在革兰氏阳性组的 Sec/SPII 上表现更好。这主要是由于 MSA 质量较低。正确展望的 MSA Neff 分数平均高于错误展望的 Neff 分数。

最后,USPNet 和 USPNet-fast 在识别古细菌 Sec/SPI SP 方面的结果并不是特别令人印象深刻。研讨职员认为造成这种现象的原因是他们的受益函数根据不同典型的 SP 的数量调整其权重,从而使 USPNet 倾向于将肽分为小类。为了缓解这种情况,该团队还提供了专注于展望 Sec/SPI 类别的训练模型。

未来,加速MSA的生成预计将成为一个重要的研讨方向,因为它是确保结构展望等多个下游任意精度的基础。因此,MSA的进步可以极大地提高各种下游任意以及USPNet的效率。

论文链接:https://www.nature.com/articles/s43588-023-00576-2

给TA打赏
共{{data.count}}人
人已打赏
应用

数智上海 2023 峰会重磅来袭,百余位大咖齐聚,共论智能翻新赋能财产数字化转型

2023-12-15 14:47:00

应用

上海交大团队利用深度学习进行疏通评价,促进脑瘫晚期筛查

2023-12-15 15:59:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索