编辑 | 枯叶蝶
蛋白质是生命的基石,参与几乎所有的生物过程。了解蛋白质如何相互作用对于解释细胞功能的复杂性至关重要,对药物开发和疾病治疗也具有重要意义。
洛桑联邦理工学院(École Polytechnique Fédérale de Lausanne,EPFL)的 Anne-Florence Bitbol 团队提出了一种配对相互作用的蛋白质序列的方法,该方法利用了在多个序列比对上训练的蛋白质语言模型的强大功能;它对于小型数据集表现良好,它可以通过监督方法改进蛋白质复合物的结构预测。
该研究以「Pairing interacting protein sequences using masked language modeling」为题,于 2024 年 6 月 24 日发布在《PNAS》。
蛋白质间的相互作用对细胞功能至关重要,它们确保了信号传导的特异性和多蛋白复合体(如分子马达或受体)的形成。预测蛋白质-蛋白质相互作用及其复合体结构是计算生物学和生物物理学中的重要课题。
尽管 AlphaFold 等深度学习方法在蛋白质单体结构预测上取得重大进展,但对于复合体结构的预测性能仍不如同单体预测,且存在异质性。AlphaFold 首先构建查询蛋白序列的同源多序列比对(MSA),而 MSA 的质量对预测准确性极为关键。
对于涉及多种链的蛋白质复合体(异源多聚体),配对 MSA 能提供交互伙伴间的协同进化信息,有助于推断链间接触,但构建正确配对的 MSA 是一大挑战;尤其是在真核生物中,因存在众多同源蛋白且非依赖于基因组邻近性。
目前,结合基因组邻近性、近似同源性、基于系统发生的方法及协同进化策略等手段来应对这一挑战,其中协同进化方法虽数据需求大,但在优化配对和预测复合体结构方面展现出潜力,特别是通过最大化协同进化信号来匹配同源蛋白。
EPFL 的 Anne-Florence Bitbol 团队开发了一种配对相互作用蛋白质序列的方法,该方法利用了在多序列比对 (MSA) 上训练的蛋白质语言模型的强大功能,例如 MSA Transformer 和 AlphaFold 的 EvoFormer 模块。这使它能够高度准确地理解和预测蛋白质之间的复杂相互作用。
基于这些,研究人员提出了使用基于对齐的语言模型(DiffPALM)的可微分配对,这是一种使用 MLM 预测同源词匹配的可微分方法。
图示:DiffPALM 在小型 HK-RR MSA 上的性能。(来源:论文)
在从普遍存在的原核生物蛋白质数据集中提取的浅层 MSA 的困难基准测试中,它的表现远胜于现有的协同进化方法。当提供已知的相互作用对作为示例时,DiffPALM 性能会进一步快速提高。
基于协同进化的配对方法,主要研究蛋白质序列在紧密相互作用时如何随着时间的推移一起进化——一种蛋白质的变化可能导致其相互作用分子的变化。这是分子和细胞生物学中一个极其重要的课题,在 MSA 上训练的蛋白质语言模型可以很好地捕捉到这一点。
图示:使用不同配对方法的 AFM 性能。(来源:论文)
之后,该团队将 DiffPALM 应用于真核蛋白质复合物的同源物匹配难题。为此,研究人员将 DiffPALM 配对的序列作为 AFM 的输入。在测试的复合物中,使用 DiffPALM 在某些情况下可以显著改善 AFM 的结构预测。它还实现了与使用基于直系同源物的配对相媲美的性能。
图示:正例的影响、MSA 深度以及对另一对蛋白质家族的扩展。(来源:论文)
DiffPALM 的应用在基础蛋白质生物学领域显而易见,但它的应用范围不止于此,因为它有可能成为医学研究和药物开发的有力工具。例如,准确预测蛋白质相互作用有助于了解疾病机制和开发有针对性的治疗方法。
研究人员已免费提供 DiffPALM,希望科学界广泛采用它以进一步推动计算生物学的发展,并使研究人员能够探索蛋白质相互作用的复杂性。
DiffPALM 结合先进的机器学习技术和对复杂生物数据的有效处理,标志着计算生物学向前迈出了重大一步。
它不仅增强了科学家对蛋白质相互作用的理解,而且开辟了医学研究的新途径,有可能带来疾病治疗和药物开发的突破。
论文链接:https://www.pnas.org/doi/10.1073/pnas.2311887121
相关报道:https://phys.org/news/2024-06-ai-based-approach-protein-interaction.html