上海交大&中山大学团队使用ESMFold、预训练语言模型以及Graph Transformer,进行蛋白质结合位点预测

编辑 | 萝卜皮识别蛋白质的功能位点,例如蛋白质、肽或其他生物成分的结合位点,对于理解相关的生物过程和药物设计至关重要。然而,现有的基于序列的方法的预测准确性有限,因为它们只考虑序列相邻的上下文特征并且缺乏结构信息。上海交通大学和中山大学的研究人员提出了 DeepProSite,用于利用蛋白质结构和序列信息来识别蛋白质结合位点。DeepProSite 首先从 ESMFold 生成蛋白质结构,并从预训练的语言模型生成序列表示。然后,它使用 Graph Transformer 并将结合位点预测制定为图节点分类。在预测蛋

上海交大&中山大学团队使用ESMFold、预训练语言模型以及Graph Transformer,进行蛋白质结合位点预测

编辑 | 萝卜皮

识别蛋白质的功能位点,例如蛋白质、肽或其他生物成分的结合位点,对于理解相关的生物过程和药物设计至关重要。然而,现有的基于序列的方法的预测准确性有限,因为它们只考虑序列相邻的上下文特征并且缺乏结构信息。

上海交通大学和中山大学的研究人员提出了 DeepProSite,用于利用蛋白质结构和序列信息来识别蛋白质结合位点。

DeepProSite 首先从 ESMFold 生成蛋白质结构,并从预训练的语言模型生成序列表示。然后,它使用 Graph Transformer 并将结合位点预测制定为图节点分类。

在预测蛋白质-蛋白质/肽结合位点时,DeepProSite 在大多数指标上都优于当前基于序列和结构的方法。此外,与基于结构的预测方法相比,DeepProSite 在预测未结合结构时保持了高性能。DeepProSite 还可以扩展到核酸和其他配体结合位点的预测,验证了其泛化能力。

该研究以「DeepProSite: structure-aware protein binding site prediction using ESMFold and pretrained language model」为题,于 2023 年 11 月 28 日发布在《Bioinformatics》。

图片

蛋白质与各种生物分子之间的相互作用构成了大多数生物过程中蛋白质功能的基础,例如基因表达调控、信号转导和代谢途径调控。

这些相互作用调节正常细胞功能,并在各种疾病的发病机制中发挥关键作用。例如,在肿瘤生长、自身免疫性疾病和病原体入侵等疾病中,蛋白质-蛋白质相互作用的失调可能导致病理生理过程的紊乱。此外,治疗性肽因其可以与蛋白质结合并具有治疗作用而成为药物开发的焦点。

因此,了解蛋白质结合位点的位置和特征对于理解蛋白质功能和药物设计至关重要。传统的结合位点检测方法,如 X 射线晶体学、双杂交筛选、表面等离振子共振技术和亲和纯化质谱法,价格昂贵且耗时。

此外,一些技术挑战,包括肽尺寸小、结合亲和力弱、构象灵活性、高瞬时性和蛋白质-蛋白质相互作用的动力学,增加了准确识别结合残基的难度。所以,开发新的、快速的、准确的计算方法非常重要。

在最新的研究中,上海交通大学和中山大学的研究人员提出了 DeepProSite,是一种拓扑感知的 Graph Transformer 模型,它可以从蛋白质序列中生成有效的结构信息和序列信息表示,分别利用 ESMFold 和预训练的语言模型来预测蛋白质结合位点。

图片

图示:DeepProSite 方法的整体流程。(来源:论文)

仅依靠蛋白质序列,DeepProSite 就实现了出色的预测性能,甚至超越了最先进的基于结构的方法,从而克服了现有基于序列和基于结构的方法的局限性。研究还表明,在预测未结合结构时,基于结构的竞争方法的准确性大大降低,而 DeepProSite 保持了与仅基于序列的预测器相当的性能,进一步证明了仅使用序列的无偏训练过程的好处。

图片

图示:DeepProSite 与基于结构的方法对 31 种具有结合和未结合结构的蛋白质进行性能比较。(来源:论文)

与现有技术相比,DeepProSite 的卓越性能归因于三个因素:(i) ESMFold 预测的高质量结构,(ii) 预训练的蛋白质语言模型提供了增强预测质量的强大表示,(iii) 结构感知 Graph Transformer 有效识别和预测结合残基模式,从而提高该方法的整体效率。

同样 DeepProSite 方法也有某些方面还可以改进。例如,通过利用蛋白质一级序列构建异质性图,可以增强模型对不同结构预测质量的鲁棒性。此外,该方法仅限于仅根据蛋白质相关信息来识别可能的蛋白质结合残基,并且无法预测特定配体的结合模式。

总之,该方法可以为研究蛋白质-蛋白质/肽结合模式、突变的致病机制和药物开发提供有价值的见解。例如,一些疾病是由导致蛋白质-蛋白质/肽结合位点改变的突变引起的,从而导致蛋白质功能异常。了解这些位点的特征及其对突变的影响有助于揭示这些致病机制。

此外,蛋白质-蛋白质/肽结合位点的预测可以为药物开发提供有价值的信息,包括设计更精确的靶点以及提高药物选择性和亲和力。此类预测还可用于研究蛋白质相互作用网络和生物信号传导,以进一步了解蛋白质的生物学功能。

未来,研究人员打算增强 Graph Transformer 的设计,并结合多任务学习,将其应用扩展到其他各个领域。这涉及预测蛋白质与其他配体的结合位点并识别蛋白质的功能位点,例如甲基化位点、磷酸化位点和变构位点。

论文链接:https://academic.oup.com/bioinformatics/article/39/12/btad718/7453375

相关资讯

纳米孔检测特定蛋白质,使细胞能够与计算机通话

编辑 | 萝卜皮基因编码的报告蛋白一直是生物技术研究的支柱,使科学家能够跟踪基因表达、了解细胞内过程和调试工程基因回路。但依赖荧光和其他光学方法的传统报告方案存在实际局限性,可能会给该领域的未来进展蒙上阴影。因此使用纳米孔检测特定蛋白质,目前具有挑战性。为了应对这一挑战,华盛顿大学的研究人员开发了一组超过 20 个纳米孔可寻址蛋白质标签,它们被设计为报告基因(NanoporeTERs,或 NTERs)。NTER 由分泌标签、折叠结构域和纳米孔靶向 C 端尾部构成,其中可以编码任意肽条码。该团队展示了使用 MinIO

ScienceAI发展前瞻:AI与科学计算的双向影响

「机器之心2021-2022年度AI趋势大咖说」聚焦「驱动未来的AI技术」与「重塑产业的AI科技」,推出线上分享,共邀请近40位AI领域知名学者、产业专家及企业高管通过主题分享及多人圆桌等形式,与行业精英、读者、观众共同回顾 2021年中的重要技术和学术热点,盘点AI产业的年度研究方向以及重大科技突破,展望2022年度AI技术发展方向、AI技术与产业科技融合趋势。

AI+Science技术实践与产业应用中的挑战与机遇

「机器之心2021-2022年度AI趋势大咖说」聚焦「驱动未来的AI技术」与「重塑产业的AI科技」,推出线上分享,共邀请近40位AI领域知名学者、产业专家及企业高管通过主题分享及多人圆桌等形式,与行业精英、读者、观众共同回顾 2021年中的重要技术和学术热点,盘点AI产业的年度研究方向以及重大科技突破,展望2022年度AI技术发展方向、AI技术与产业科技融合趋势。