分类性能提高 10%,港中大利用大型蛋白质语言模型发现未知信号肽

编辑 | 萝卜皮信号肽 (SP) 对于跨膜和分泌蛋白靶向并将其转移到正确位置至关重要。许多现有的预测 SP 的计算工具忽视了极端的数据不平衡问题,而依赖于蛋白质的额外组信息。香港中文大学的研究人员开发了无偏生物体不可知信号肽网络(Unbiased Organism-agnostic Signal Peptide Network,USPNet),一种 SP 分类和切割位点预测深度学习方法。大量的实验结果表明,USPNet 的分类性能比之前的方法大幅提高了 10%。USPNet 的 SP 发现流程旨在从宏基因组数据中探

分类性能提高 10%,港中大利用大型蛋白质语言模型发现未知信号肽

编辑 | 萝卜皮

信号肽 (SP) 对于跨膜和分泌蛋白靶向并将其转移到正确位置至关重要。许多现有的预测 SP 的计算工具忽视了极端的数据不平衡问题,而依赖于蛋白质的额外组信息。

香港中文大学的研究人员开发了无偏生物体不可知信号肽网络(Unbiased Organism-agnostic Signal Peptide Network,USPNet),一种 SP 分类和切割位点预测深度学习方法。

大量的实验结果表明,USPNet 的分类性能比之前的方法大幅提高了 10%。USPNet 的 SP 发现流程旨在从宏基因组数据中探索从未见过的 SP。

它揭示了 347 个 SP 候选物,这些候选物与训练数据集中最接近的 SP 之间的序列同一性很低,最低仅为 13%。此外,训练集中候选物和 SP 之间的模板建模分数大多在 0.8 以上。

这些结果表明,USPNet 已经通过原始氨基酸序列和大型蛋白质语言模型学习了 SP 结构,从而能够发现未知的 SP。

该研究以「Unbiased organism-agnostic and highly sensitive signal peptide predictor with deep protein language model」为题,于 2023 年 12 月 13 日发布在《Nature Computational Science》。

分类性能提高 10%,港中大利用大型蛋白质语言模型发现未知信号肽

信号肽 (SP) 是一种短氨基酸序列,可作为特定的靶向信号来引导蛋白质并将其转移至分泌途径。它具有三域结构:带正电的 N 区、疏水性的 H 区和不带电的 C 区。SP 作为特定片段引导蛋白质到达正确位置,然后被 C 区附近的切割位点切割。因此,SP 的鉴定对于研究蛋白质的功能至关重要。

由于 SP 的全面实验鉴定可能非常耗时且耗费资源,因此人们提出了许多计算工具来对 SP 进行分类并预测切割位点。

最近,监督模型在 SP 识别方面取得了很大进展。查询序列被编码为嵌入向量,然后输入模型以直接计算每种 SP 类型的概率。比如:DeepSig将深度卷积神经网络(CNN)架构应用于SP的识别和分离位点位置的预测。此外,SignalP5.0 的出现并对之前提出的所有方法进行了基准测试,而 SignalP6.0 能够预测之前模型无法检测到的所有五种类型的 SP。

这些方法在任务中取得了先进的性能,但大多数都存在极端的类不平衡,因此在小类数据上表现不佳。此外,这些方法通常在很大程度上依赖于有关生物体群体的附加信息来提高其性能。然而,现实中从宏基因组数据中获取足够的群体信息是不切实际的。一个强大的工具应该只需要氨基酸序列就可以产生准确的预测结果。

受到最近开发的蛋白质语言模型的启发,该模型可以隐式编码功能和结构信息并有利于各种下游任务,香港中文大学的研究团队提出了基于双向长短期记忆 (BiLSTM) 框架和蛋白质语言模型的无偏生物体不可知信号肽预测器 (USPNet),用于对 SP 进行分类并预测其切割位点位置。

分类性能提高 10%,港中大利用大型蛋白质语言模型发现未知信号肽

图:用于预测 SP 和切割位点的 USPNet 工作流程。(来源:论文)

研究人员利用基于高级多序列比对(MSA)的蛋白质语言模型来丰富表示,从而帮助编码序列的组信息。该团队将类平衡损失与标签分布感知边缘(LDAM)损失结合起来作为 USPNet 的损失函数,从而提高泛化能力。该方法有效地对所有五种类型的 SP 和非 SP 型蛋白质进行分类。

研究人员将他们的模型与其他几个与任务相关的深度学习模型进行比较。与之前最先进的方法相比,USPNet 在多个类别上的 Matthews 相关系数 (MCC) 提高了 10% 以上。

然后,该团队构建了从处理宏基因组数据到进行未知 SP 检测的完整流程。研究人员从多个资源收集猪肠道宏基因组数据,最终从数百万个序列中筛选出 347 个肽作为与现有 SP 序列一致性较低且可能是未知SP的候选肽。

分类性能提高 10%,港中大利用大型蛋白质语言模型发现未知信号肽

图:USPNet 在域转移数据上的性能。(来源:论文)

同样,该方法仍有改进的途径。首先,USPNet 的 MSA 过程非常耗时。USPNet-fast 速度提高约 20 倍;因此,用户可能更喜欢使用 USPNet-fast 来节省大量时间。

其次,虽然 USPNet 对于大多数 SP 类型的预测优于以前的方法,但 USPNet-fast 在革兰氏阳性组的 Sec/SPII 上表现更好。这主要是由于 MSA 质量较低。正确预测的 MSA Neff 分数平均高于错误预测的 Neff 分数。

最后,USPNet 和 USPNet-fast 在识别古细菌 Sec/SPI SP 方面的结果并不是特别令人印象深刻。研究人员认为造成这种现象的原因是他们的损失函数根据不同类型的 SP 的数量调整其权重,从而使 USPNet 倾向于将肽分为小类。为了缓解这种情况,该团队还提供了专注于预测 Sec/SPI 类别的训练模型。

未来,加速MSA的生成预计将成为一个重要的研究方向,因为它是确保结构预测等多个下游任务精度的基础。因此,MSA的进步可以极大地提高各种下游任务以及USPNet的效率。

论文链接:https://www.nature.com/articles/s43588-023-00576-2

相关资讯

压缩率达10的48次方,实现蛋白序列空间极端压缩,清华EvoAI登Nature子刊

编辑 | 萝卜皮设计功能更佳的蛋白质需要深入了解序列和功能之间的关系,这是一个难以探索的广阔空间。 通过识别功能上重要的特征来有效压缩这一空间的能力极其宝贵。 清华大学的研究团队建立了一种称为 EvoScan 的方法,用于全面分割和扫描高适应度序列空间,以获得能够捕捉其基本特征(尤其是在高维度中)的锚点。

大视觉语言模型基准数据集ReForm-Eval:新瓶装旧酒,给旧有的基准数据集换个形式就能用来评估新的大视觉语言模型

概要复旦DISC实验室推出了ReForm-Eval,一个用于综合评估大视觉语言模型的基准数据集。ReForm-Eval通过对已有的、不同任务形式的多模态基准数据集进行重构,构建了一个具有统一且适用于大模型评测形式的基准数据集。所构建的ReForm-Eval具有如下特点:构建了横跨8个评估维度,并为每个维度提供足量的评测数据(平均每个维度4000余条);具有统一的评测问题形式(包括单选题和文本生成问题);方便易用,评测方法可靠高效,且无需依赖ChatGPT等外部服务;高效地利用了现存的数据资源,无需额外的人工标注,并

Copilot 正在吞噬世界,与 ChatGPT 一起

机器之能报道编辑:SIa2023 年属于 AI (尤其是生成式 AI ),几乎每个人都或多或少尝试过大型语言模型 ( LLM ),无论是教师、政客、脱口秀甚至儿童活动支持人。凭借每周超过 1 亿的活跃用户,ChatGPT 跻身当之无愧的顶流。不过,很多日常用例只触及了可能性表面。透过表面,那些真正从事技术工作的人们正在使用广泛 AI 工具来改造产品、重构业务,或者以前所未有的方式提供客户体验.......至少,大家承诺如此。那么,真实情况是什么呢?8月,低代码开发平台独角兽 Retool 对 1,578 名技术人员