3倍灵敏度,搜刮百万卵白对只需几秒,复旦、山大、上海交大开发新的卵白质说话模型

编辑 | 萝卜皮同源卵白质搜刮是卵白质注释和分析最常用的格式之一。与布局搜刮相比,仅从序列中检测近程进化关系仍然具有挑战性。复旦大学、山东大学以及上海交通大学的钻研团队提出了 PLMSearch(Protein Language Model),一种仅以序列作为输出的同源卵白质搜刮格式,能够捕获隐藏在序列后面的近程同源信息。PLMSearch 可以像 MMseqs2 一样在几秒钟内搜刮数百万个查问宗旨卵白质对,同时将灵敏度提高三倍以上,可与当前最先进的布局搜刮格式相媲美。此外,与传统的序列搜刮格式不同,PLMSear

3倍灵敏度,搜刮百万卵白对只需几秒,复旦、山大、上海交大开发新的卵白质说话模型

编辑 | 萝卜皮

同源卵白质搜刮是卵白质注释和分析最常用的格式之一。与布局搜刮相比,仅从序列中检测近程进化关系仍然具有挑战性。

复旦大学、山东大学以及上海交通大学的钻研团队提出了 PLMSearch(Protein Language Model),一种仅以序列作为输出的同源卵白质搜刮格式,能够捕获隐藏在序列后面的近程同源信息。

PLMSearch 可以像 MMseqs2 一样在几秒钟内搜刮数百万个查问宗旨卵白质对,同时将灵敏度提高三倍以上,可与当前最先进的布局搜刮格式相媲美。此外,与传统的序列搜刮格式不同,PLMSearch 可以召回具有不近似序列但布局近似的大多数近程同源对。

该钻研以「PLMSearch: Protein language model powers accurate and fast sequence search for remote homology」为题,于 2024 年 3 月 30 日发布在《Nature Communications》。

3倍灵敏度,搜刮百万卵白对只需几秒,复旦、山大、上海交大开发新的卵白质说话模型

同源卵白质搜刮是生物信息学领域的核心技术之一,它通过比较卵白质序列来猜测卵白质的功能和相互作用。尽管鉴于序列近似性的搜刮格式广泛应用,但它们在识别近程进化关系时仍存在挑战。此外,虽然布局搜刮格式提供了更高的灵敏度,但获取卵白质布局的成本和复杂性限制了它们的应用场景。

卵白质说话模型(PLMs)虽然在布局相关任务中表现出优势,但在处理大规模数据集时,如何有效利用 PLMs 以实现快速且准确的同源性检测仍然是一个挑战。

结合深度学习表示和序列比对算法的格式,虽然提高了准确性,但仍需面对计算效率和模型泛化能力的问题。因此,开发能够克服这些局限性的创新格式,对于推动生物信息学和相关领域的钻研具有重要意义。

在这里,复旦大学、山东大学、上海交通大学的钻研团队提出了 PLMSearch,这是一种仅以序列为输出,通过卵白质说话模型和 Pfam 序列分析来搜刮同源卵白的工具,能够挖掘隐藏在序列背后的近程同源信息。

3倍灵敏度,搜刮百万卵白对只需几秒,复旦、山大、上海交大开发新的卵白质说话模型

图示:PLMSearch 概述。(来源:论文)

PLMSearch主要包括以下三部分:

(1)PfamClan 过滤掉共享相同 Pfam 族域的卵白质对。

(2)SS-predictor(Structural Similarity predictor)利用卵白质说话模型生成的嵌入来猜测所有查问宗旨对之间的近似性。如果没有布局作为输出,PLMSearch 不会损失太多灵敏度,因为它利用卵白质说话模型从深度序列嵌入中捕获近程同源信息。此外,该步骤中利用的SS猜测器利用布局近似性(TM-score)作为训练的基本事实。这使得 PLMSearch 即使没有布局作为输出也可以获得可靠的近似性。

(3)PLMSearch 根据猜测的近似性对 PfamClan 预先过滤的对进行排序,并相应地输出每个查问卵白质的搜刮结果。接着,利用 PLMAlign 对 PLMSearch 检索到的卵白对进行比对,获取比对分数。

SCOPe40-test 和 Swiss-Prot 上的搜刮测试表明,PLMSearch 可以像 MMseqs2 一样在几秒钟内搜刮数百万个查问宗旨卵白质对,但将灵敏度提高了三倍以上,性能与当前最先进的布局搜刮格式相当,特别是在近程同源对中表现突出。与其他基线格式相比,PLMSearch 是最快的搜刮格式之一,并且做到了准确性和速度之间的最佳权衡。

3倍灵敏度,搜刮百万卵白对只需几秒,复旦、山大、上海交大开发新的卵白质说话模型

图示:PLMsearch 达到与布局搜刮格式相近的灵敏度。(来源:论文)

该团队详细讨论了搜刮格式(如 PLMSearch)和比对格式(如 pLM-BLAST 和 PLMAlign)之间的区别,并指出鉴于残基嵌入的比对格式,例如 PLMAlign 和 pLM-BLAST,均有不错的灵敏度。

目前,这些格式的主要限制在于宗旨数据集的大小。这在两个关键方面尤为明显:

(1)鉴于残基嵌入的比对需要保留宗旨数据集中每个卵白的所有残基嵌入,而 PLMSearch 只需要保留每个卵白的嵌入,这导致了超过三个数量级的大小差异,对于搜刮如 UniRef50 这样包含 5360 万卵白的大型数据集构成了重大挑战。

(2)鉴于残基嵌入的比对通过成对的全局(局部)比对来确定卵白对之间的近似性,而 PLMSearch 只需要通过 SS-predictor 网络的单次前向传递就能猜测数百万查问宗旨对的近似性。

值得注意的是,PLMSearch 只能猜测卵白对的近似性,而不提供任何比对建议。因此,PLMSearch + PLMAlign 通过 PLMSearch 筛选出近似度高于 0.3 的卵白质对,并为其提供比对;这不仅弥补了 PLMSearch 的局限性,还避免了大量低近似度和无意义的比对,从而保持了高效率。

3倍灵敏度,搜刮百万卵白对只需几秒,复旦、山大、上海交大开发新的卵白质说话模型

图示:PLMSearch 准确检测近程同源对。(来源:论文)

未来,钻研人员计划探索查问和宗旨残基嵌入之间的相互作用,从而提供更好的全局和局部序列比对结果。

总之,钻研人员相信 PLMSearch 已经消除了序列搜刮格式的低灵敏度限制。由于序列比布局更易于获取和应用, PLMSearch 有望成为一种更方便的大规模同源卵白搜刮格式。

PLMSearch:https://dmiip.sjtu.edu.cn/PLMSearch

论文链接:https://www.nature.com/articles/s41467-024-46808-5

给TA打赏
共{{data.count}}人
人已打赏
理论

化学威力超GPT-4,首个化学范畴百亿级大模型,思必驰、上交大、苏州实验室联合发布

2024-4-7 17:54:00

理论

Nat. Mach. Intell.|设想超高效疫苗,普林斯顿团队开发首个解码mRNA序列大模型

2024-4-9 15:37:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索