仅根据蛋白质序列便可预测相互作用界面,一种基于Transformer的蛋白预测模型

编辑 | 萝卜皮蛋白质-蛋白质相互作用(PPI)对于生物过程至关重要,预测这些相互作用的位点对于计算和实验应用都很重要。杜克大学(Duke University)和康奈尔大学(Cornell University)的研究人员提出了一种与结构无关的语言Transformer和肽优先级(Structure-agnostic Language Transformer and Peptide Prioritization,SaLT&PepPr)管线,用于仅根据蛋白质序列预测相互作用界面,以用于后续生成肽结合基序。该模型通过

图片

编辑 | 萝卜皮

蛋白质-蛋白质相互作用(PPI)对于生物过程至关重要,预测这些相互作用的位点对于计算和实验应用都很重要。

杜克大学(Duke University)和康奈尔大学(Cornell University)的研究人员提出了一种与结构无关的语言Transformer和肽优先级(Structure-agnostic Language Transformer and Peptide Prioritization,SaLT&PepPr)管线,用于仅根据蛋白质序列预测相互作用界面,以用于后续生成肽结合基序。

该模型通过每个位置预测任务对 ESM-2 蛋白质语言模型 (pLM) 进行微调,从而使用 PDB 中的数据识别 PPI 位点,并优先考虑最有可能参与链间结合的基序。通过仅使用氨基酸序列作为输入,该模型与基于结构同源性的方法具有竞争力,但与同时输入结构和序列特征的深度学习模型相比,性能下降。

受使用共晶设计目标结合「引导」肽结果的启发,研究人员整理了 PPI 数据库来识别后续肽衍生的分子伴侣。将引导肽融合到 E3 泛素连接酶结构域,该团队证明了内源性 β-连环蛋白、4E-BP2 和 TRIM8 的降解,并强调了他们在癌细胞中表现最佳的降解剂的纳摩尔结合亲和力、低脱靶倾向和功能改变能力。

该团队表明,通过 pLM 优先考虑自然相互作用中的结合物可以实现可编程的蛋白质靶向和调节。

研究「SaLT&PepPr is an interface-predicting language model for designing peptide-guided protein degraders」,于 2023 年 10 月 24 日发布在《Communications Biology》。

图片

将紧凑蛋白结合物与各种 E3 泛素连接酶结构域融合,能够选择性结合、泛素化和不同目的蛋白的细胞内降解。生成一个模块化系统来设计这些基因编码的构建体,称为泛在体(uAb),将代表一种灵活的靶向蛋白质降解(TPD)方法。

受到 RNA 引导的 CRISPR 基因组编辑的可编程性的启发,杜克大学和康奈尔大学的研究人员之前使用从蛋白质-蛋白质相互作用(PPIs)的结合共晶结构的结合界面中鉴定出的线性基序作为后续生成靶标降解uAb的「引导」肽。

然而,这种基于结构的方法依赖于经过实验验证的目标蛋白共晶,这种共晶仅占人类蛋白质组的 <25%。金标准 PPI 数据库包含超过 75% 的人类蛋白质组的结合序列,因此代表了指导肽生成的丰富信息来源。

因此,研究人员假设利用 PPI 信息从伴侣蛋白序列中识别蛋白相互作用位点,可能能够对 uAb 介导的 TPD 的引导肽进行更广泛的优先排序。

图片

图示:用于肽优先级排序的界面预测语言模型。(来源:论文)

在最新的工作中,该团队应用蛋白质语言模型(pLM)来识别输入蛋白质序列中的结合基序,而不需要三维蛋白质结构。通过准确预测经过验证的相互作用伙伴上的这些蛋白质结合位点,他们优先考虑用于下游 uAb 生成的引导肽。

为此,该团队基于最先进的 ESM-2 pLM 创建了一个与结构无关的语言 Transformer 和肽优先级 (SaLT&PepPr) 模型,首先预测沿输入相互作用伙伴序列的相互作用位点,并通过与 PPI 数据库集成,实现输入靶蛋白的连续引导肽候选物的分离。

作为第一个概念验证,研究人员利用已知的相互作用信息来生成高亲和力、特异性肽引导的 β-连环蛋白降解剂,β-连环蛋白是一种核心转录调节因子,其失调经常导致癌细胞增殖。

然后,研究人员证明 SaLT&PepPr 可以以数据驱动的方式有效地将引导肽优先考虑到 4E-BP2 和 TRIM8,这些引导肽被集成到 uAb 架构中,并发现可以诱导靶标降解。具体来说,靶向 TRIM8 的 uAb 可诱导尤文肉瘤细胞凋亡,这与之前的遗传学研究一致。

该研究进一步证明了 pLM 在识别蛋白质-蛋白质结合界面方面的应用,虽然它对结构化目标的效果不如当前最先进的方法,但与结构同源性或基于特征的方法相比具有竞争力。研究人员设想未来的模型将更大的语言模型与进化和结构信息相结合,并直接考虑相互作用的蛋白质,可能会进一步提高计算和实验性能。

总的来说,通过将基于 pLM 的结合预测与用于蛋白质降解的 uAb 相结合,该工作激发了利用蛋白质相互作用来设计用于大规模蛋白质组编辑应用的可编程工具。

论文链接:https://www.nature.com/articles/s42003-023-05464-z

相关资讯

清华AIR等提出ESM-AA,首个从氨基酸到原子尺度的蛋白质语言模型

来自清华大学AIR、北京大学、南京大学的研究团队提出了 ESM-AA 模型。该模型在蛋白质语言建模领域取得了重要进展,提供了一套整合多尺度信息的统一建模方案。它是首个能同时处理氨基酸信息和原子信息的蛋白质预训练语言模型。模型的出色性能展示了多尺度统一建模在克服现有局限和解锁新能力方面的巨大潜力。作为基座模型,ESM-AA 获得了多位学者的关注与广泛讨论(截图见下方),被认为有潜力基于 ESM-AA 开发出可与 AlphaFold3、RoseTTAFold All-Atom 相竞争的模型,为研究不同生物结构间的相互作

开源!港中文、MIT、复旦提出首个RNA基石模型

本文中 RNA-FM 模型的出现一定程度上缓解了 RNA 带标注数据紧张的现状,为其他研究者提供了访问大批量无标签数据的便捷接口。并且,该模型将以 RNA 领域基础模型的身份,为该领域的各种各样的研究提供强有力的支援与帮助。

南开&山大&北理工团队开发trRosettaRNA:利用Transformer网络自动预测RNA 3D结构

编辑 | 萝卜皮RNA 3D 结构预测是一个长期存在的挑战。受最近蛋白质结构预测领域突破的启发,南开大学、山东大学以及北京理工大学的研究团队开发了 trRosettaRNA,这是一种基于深度学习的自动化 RNA 3D 结构预测方法。trRosettaRNA 流程包括两个主要步骤:通过transformer网络进行 1D 和 2D 几何形状预测;以及通过能量最小化进行的 3D 结构折叠。基准测试表明 trRosettaRNA 优于传统的自动化方法。在 CASP15 和 RNA-Puzzles 实验的盲测中,对天然 R