3倍灵敏度,搜索百万蛋白对只需几秒,复旦、山大、上海交大开发新的蛋白质语言模型

编辑 | 萝卜皮同源蛋白质搜索是蛋白质注释和分析最常用的方法之一。与结构搜索相比,仅从序列中检测远程进化关系仍然具有挑战性。复旦大学、山东大学以及上海交通大学的研究团队提出了 PLMSearch(Protein Language Model),一种仅以序列作为输入的同源蛋白质搜索方法,能够捕获隐藏在序列后面的远程同源信息。PLMSearch 可以像 MMseqs2 一样在几秒钟内搜索数百万个查询目标蛋白质对,同时将灵敏度提高三倍以上,可与当前最先进的结构搜索方法相媲美。此外,与传统的序列搜索方法不同,PLMSear

图片

编辑 | 萝卜皮

同源蛋白质搜索是蛋白质注释和分析最常用的方法之一。与结构搜索相比,仅从序列中检测远程进化关系仍然具有挑战性。

复旦大学、山东大学以及上海交通大学的研究团队提出了 PLMSearch(Protein Language Model),一种仅以序列作为输入的同源蛋白质搜索方法,能够捕获隐藏在序列后面的远程同源信息。

PLMSearch 可以像 MMseqs2 一样在几秒钟内搜索数百万个查询目标蛋白质对,同时将灵敏度提高三倍以上,可与当前最先进的结构搜索方法相媲美。此外,与传统的序列搜索方法不同,PLMSearch 可以召回具有不相似序列但结构相似的大多数远程同源对。

该研究以「PLMSearch: Protein language model powers accurate and fast sequence search for remote homology」为题,于 2024 年 3 月 30 日发布在《Nature Communications》。

图片

同源蛋白质搜索是生物信息学领域的核心技术之一,它通过比较蛋白质序列来预测蛋白质的功能和相互作用。尽管基于序列相似性的搜索方法广泛应用,但它们在识别远程进化关系时仍存在挑战。此外,虽然结构搜索方法提供了更高的灵敏度,但获取蛋白质结构的成本和复杂性限制了它们的应用场景。

蛋白质语言模型(PLMs)虽然在结构相关任务中表现出优势,但在处理大规模数据集时,如何有效利用 PLMs 以实现快速且准确的同源性检测仍然是一个挑战。

结合深度学习表示和序列比对算法的方法,虽然提高了准确性,但仍需面对计算效率和模型泛化能力的问题。因此,开发能够克服这些局限性的创新方法,对于推动生物信息学和相关领域的研究具有重要意义。

在这里,复旦大学、山东大学、上海交通大学的研究团队提出了 PLMSearch,这是一种仅以序列为输入,通过蛋白质语言模型和 Pfam 序列分析来搜索同源蛋白的工具,能够挖掘隐藏在序列背后的远程同源信息。

图片

图示:PLMSearch 概述。(来源:论文)

PLMSearch主要包括以下三部分:

(1)PfamClan 过滤掉共享相同 Pfam 族域的蛋白质对。

(2)SS-predictor(Structural Similarity predictor)使用蛋白质语言模型生成的嵌入来预测所有查询目标对之间的相似性。如果没有结构作为输入,PLMSearch 不会损失太多灵敏度,因为它使用蛋白质语言模型从深度序列嵌入中捕获远程同源信息。此外,该步骤中使用的SS预测器使用结构相似性(TM-score)作为训练的基本事实。这使得 PLMSearch 即使没有结构作为输入也可以获得可靠的相似性。

(3)PLMSearch 根据预测的相似性对 PfamClan 预先过滤的对进行排序,并相应地输出每个查询蛋白质的搜索结果。接着,使用 PLMAlign 对 PLMSearch 检索到的蛋白对进行比对,获取比对分数。

SCOPe40-test 和 Swiss-Prot 上的搜索测试表明,PLMSearch 可以像 MMseqs2 一样在几秒钟内搜索数百万个查询目标蛋白质对,但将灵敏度提高了三倍以上,性能与当前最先进的结构搜索方法相当,特别是在远程同源对中表现突出。与其他基线方法相比,PLMSearch 是最快的搜索方法之一,并且做到了准确性和速度之间的最佳权衡。

图片

图示:PLMsearch 达到与结构搜索方法相近的灵敏度。(来源:论文)

该团队详细讨论了搜索方法(如 PLMSearch)和比对方法(如 pLM-BLAST 和 PLMAlign)之间的区别,并指出基于残基嵌入的比对方法,例如 PLMAlign 和 pLM-BLAST,均有不错的灵敏度。

目前,这些方法的主要限制在于目标数据集的大小。这在两个关键方面尤为明显:

(1)基于残基嵌入的比对需要保留目标数据集中每个蛋白的所有残基嵌入,而 PLMSearch 只需要保留每个蛋白的嵌入,这导致了超过三个数量级的大小差异,对于搜索如 UniRef50 这样包含 5360 万蛋白的大型数据集构成了重大挑战。

(2)基于残基嵌入的比对通过成对的全局(局部)比对来确定蛋白对之间的相似性,而 PLMSearch 只需要通过 SS-predictor 网络的单次前向传递就能预测数百万查询目标对的相似性。

值得注意的是,PLMSearch 只能预测蛋白对的相似性,而不提供任何比对建议。因此,PLMSearch + PLMAlign 通过 PLMSearch 筛选出相似度高于 0.3 的蛋白质对,并为其提供比对;这不仅弥补了 PLMSearch 的局限性,还避免了大量低相似度和无意义的比对,从而保持了高效率。

图片

图示:PLMSearch 准确检测远程同源对。(来源:论文)

未来,研究人员计划探索查询和目标残基嵌入之间的相互作用,从而提供更好的全局和局部序列比对结果。

总之,研究人员相信 PLMSearch 已经消除了序列搜索方法的低灵敏度限制。由于序列比结构更易于获取和应用, PLMSearch 有望成为一种更方便的大规模同源蛋白搜索方法。

PLMSearch:https://dmiip.sjtu.edu.cn/PLMSearch

论文链接:https://www.nature.com/articles/s41467-024-46808-5

相关资讯

Protein BLAST会成为过去吗?AlphaFold等对蛋白结构的搜索是否会取代对序列的搜索

编辑 | 白菜叶像 AlphaFold 这样的蛋白质结构搜索工具会用 BLAST 取代蛋白质序列搜索吗?德累斯顿工业大学的研究团队讨论了使用结构搜索进行远程同源性检测的前景,以及为什么蛋白质 BLAST 作为领先的序列搜索工具应努力纳入结构信息。BLAST 广泛用于分子生物学中搜索核苷酸和蛋白质序列。BLAST 推出三十年后,结构预测出现了重大突破,出现了 RoseTTAFold 和 AlphaFold 等工具。因此,主要序列数据库中的每个蛋白质序列现在都带有一个 3D 折叠模型。虽然这不会影响(非编码)核苷酸序列

MIT研究人员将Transformer与图神经网络结合,用于设计全新蛋白质

编辑 | 萝卜皮凭借其复杂的排列和动态功能,蛋白质通过采用简单构建块的独特排列(其中几何形状是关键)来执行大量的生物任务。将这个几乎无限的排列库转化为各自的功能,可以方便研究人员设计用于特定用途的定制蛋白质。麻省理工学院(MIT)的 Markus Buehler 提出了一种灵活的基于语言模型的深度学习策略,将 Transformer 与图神经网络结合起来,以更好地理解和设计蛋白质。「通过这种新方法,我们可以通过对基本原理进行建模,利用大自然发明的一切作为知识基础。」Buehler 说,「该模型重新组合了这些自然构建

制药新工具、有望规避免疫反应,多伦多大学团队用AI框架重新设计参与基因治疗的关键蛋白质

编辑 | 萝卜皮当下,蛋白质设计深度生成模型的快速进展主要集中在具有大量数据的小蛋白质上。这些模型在天然序列有限的大蛋白上表现不佳,例如腺病毒和腺相关病毒的衣壳蛋白,它们是基因治疗的常见递送载体。生成合成病毒载体血清型可以克服大多数基因治疗接受者表现出的强大的预先存在的免疫反应。多伦多大学的研究人员提出了一种变异自动编码器(ProteinVAE),它可以生成合成病毒载体血清型,而无需预先存在的中和抗体的表位。将预先训练的蛋白质语言模型纳入编码器中以提高数据效率,并使用基于反卷积的上采样进行解码以避免长蛋白质序列生成