华科大团队开发几何三角形感知蛋白质语言模型,猜测蛋白质-蛋白质交战

编辑 | 萝卜皮有关相互作用蛋白质之间的残基-残基距离的信息对于蛋白质复合物的构造建模非常重要,并且对于理解蛋白质-蛋白质相互作用的分子体制也很有价值。随着深度进修的出现,人们开发了许多法子来准确猜测单体的蛋白质内残基-残基交战。然而,准确猜测蛋白质复合物,尤其是异源蛋白质复合物的蛋白质间残基-残基交战仍旧具有挑战性。华中科技大学的研究人员开发了一种鉴于蛋白质语言模型的深度进修法子,通过在深度神经网络中引入三角形更新和三角形自注意力的三角形感知体制来猜测蛋白质复合物的蛋白质间残基-残基交战(称为 DeepInter

华科大团队开发几何三角形感知蛋白质语言模型,猜测蛋白质-蛋白质交战

编辑 | 萝卜皮

有关相互作用蛋白质之间的残基-残基距离的信息对于蛋白质复合物的构造建模非常重要,并且对于理解蛋白质-蛋白质相互作用的分子体制也很有价值。

随着深度进修的出现,人们开发了许多法子来准确猜测单体的蛋白质内残基-残基交战。然而,准确猜测蛋白质复合物,尤其是异源蛋白质复合物的蛋白质间残基-残基交战仍旧具有挑战性。

华中科技大学的研究人员开发了一种鉴于蛋白质语言模型的深度进修法子,通过在深度神经网络中引入三角形更新和三角形自注意力的三角形感知体制来猜测蛋白质复合物的蛋白质间残基-残基交战(称为 DeepInter)。

该研究以「Protein–protein contact prediction by geometric triangle-aware protein language models」为题,于 2023 年 10 月 19 日发布在《Nature Machine Intelligence》。

华科大团队开发几何三角形感知蛋白质语言模型,猜测蛋白质-蛋白质交战

蛋白质通过与其他分子相互作用或组装形成对称同源寡聚物来发挥其功能。阐明复杂构造的界面是理解其生物学功能的基本步骤。然而,四级蛋白质构造的猜测仍旧是一个长期存在的挑战。鉴于实验构造测定的低通量和高成本,计算法子已成为猜测单体和复合物的蛋白质构造的有价值的法子。

近期,AlphaFold2 被提出作为一种端到端的深度进修架构来直接猜测单体的构造。虽然AlphaFold2猜测的构造的准确性在许多单体情况下可以与实验相媲美,但它在蛋白质复合物的构造猜测方面还远未达到可比的准确性。因此,仍旧非常需要开发进一步的计算法子来猜测蛋白质-蛋白质相互作用。

蛋白质间残基-残基交战猜测在需要关键界面信息的蛋白质复杂构造猜测中起着重要作用。鉴于界面相互作用的重要性,科学家已经开发了各种鉴于深度进修的法子来猜测蛋白质间交战和蛋白质-蛋白质相互作用。

与利用鉴于多重序列比对(MSA)的直接耦合分析(DCA)的共同进化数据进行的蛋白质内交战猜测相比,先进的蛋白质间交战猜测利用蛋白质语言模型的优势来捕捉蛋白质间相互作用并提高机能。

然而,这些法子的机能取决于 MSA 提供的同源性。对于蛋白质间交战猜测,需要进行配对MSA(interlogs)——这是一个主要的瓶颈和挑战。尽管有多种法子可将来自复合体不同单体的 MSA 配对,包括鉴于基因组、鉴于系统发育和鉴于块对角线的法子,但准确猜测界面交战仍旧很困难。

目前蛋白质间交战猜测的法子有一些局限性。首先,现有的蛋白质间交战猜测的主流框架主要鉴于残差卷积网络,其只能捕捉局部特征。其次,这些法子的猜测交战图具有很大的几何不一致,违反了三角不等式。第三,一些法子直接利用二维(2D)特征矩阵上的注意力体制,仅考虑每对残基的相互作用。

为了克服这些限制,华中科技大学的研究团队开发了一种鉴于深度进修的蛋白质复合物的蛋白质间交战猜测法子——DeepInter,通过应用预先训练的蛋白质语言模型生成的隐藏特征并利用三角形感知模块。

华科大团队开发几何三角形感知蛋白质语言模型,猜测蛋白质-蛋白质交战

图示:DeepInter的框架。(来源:论文)

DeepInter 在网络中引入了 ResNet-Inception 模块来处理蛋白质内特征;这可以通过增加有效感受野来有效捕捉残基对之间的长程相互作用。

该团队在 300 个同二聚体、28 个 CASP-CAPRI 同二聚体和 99 个异二聚体复合物的不同尝试集上广泛验证了 DeepInter,并将其与最先进的法子(包括 CDPred、DeepHomo2.0、GLINTER 和 DeepHomo)进行了比较。与现有法子相比,DeepInter 在同二聚体和异二聚体的不同尝试集上提供了显著的机能革新。

与其他先进法子相比,DeepInter 正确猜测了蛋白质间交战,并在两个不同的同二聚体尝试集和一个异二聚体尝试集上的几乎所有指标上实现了最佳机能。通过消融实验表明,这些革新主要是由 ESM-MSA-1b 功能和三角形感知模块贡献的。

前者在大型序列数据上进行训练,交错行和列注意力以提取残基-残基相互作用。后者在对表示上应用注意体制,通过满足几何三角不等式来考虑多体效应。对 MSA 深度和界面交战密度的进一步分析表明,对于相互作用界面较小、同源性较少的硬二聚体,DeepInter 可以比其他法子获得更高的精度。

在进一步的开发中,猜测的蛋白质间交战可用于复合物的构造建模,例如,在蛋白质-蛋白质对接和梯度下降优化中。DeepInter 的架构可以进一步革新,以用于高阶寡聚复合物的蛋白质间交战。此外,该架构还可以适用于猜测残基-残基距离图,与 AlphaFold2 或 AlphaFold-Multimer 一起工作以革新复杂构造猜测。未来的方向也可能是猜测蛋白质的寡聚状态,这是该领域仍旧悬而未决的关键问题。

尽管 DeepInter 目前取得了成功,但仍旧存在一些局限性,可以在未来的工作中得到革新。首先,因为研究人员使用了 ESM-MSA-1b 模型生成的 MSA 表示和注意力矩阵,所以二聚体的最大序列长度限制为 1,024。这意味着 DeepInter 无法猜测极大的异质复合物的蛋白质间交战。其次,一些具有小界面的大蛋白质复合物很难用 DeepInter 和现有的猜测器正确猜测。第三,猜测构造的质量会影响鉴于构造的法子的精度。

最后,蛋白质的较大构象变化将对机能产生重大影响。在未来的工作中,该团队可能会使用大型编码器模型的构造表示来增强猜测器的稳健性,并进一步革新该网络来猜测异质复合物的多链交战。

论文链接:https://www.nature.com/articles/s42256-023-00741-2

给TA打赏
共{{data.count}}人
人已打赏
应用

锐思智芯完成数亿元Pre-B轮融资,重点投入量产交付

2023-11-21 13:58:00

应用

OpenAI董事会被踢爆曾与竞争对手Anthropic讨论兼并,Altman 去留仍存变数

2023-11-21 15:48:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索