精度媲美AlphaFold,EPFL的AI方法从序列中匹配蛋白质互作

编辑 | 枯叶蝶蛋白质是生命的基石,参与几乎所有的生物过程。了解蛋白质如何相互作用对于解释细胞功能的复杂性至关重要,对药物开发和疾病治疗也具有重要意义。洛桑联邦理工学院(École Polytechnique Fédérale de Lausanne,EPFL)的 Anne-Florence Bitbol 团队提出了一种配对相互作用的蛋白质序列的方法,该方法利用了在多个序列比对上训练的蛋白质语言模型的强大功能;它对于小型数据集表现良好,它可以通过监督方法改进蛋白质复合物的结构预测。该研究以「Pairing inte

精度媲美AlphaFold,EPFL的AI方法从序列中匹配蛋白质互作

编辑 | 枯叶蝶

蛋白质是生命的基石,参与几乎所有的生物过程。了解蛋白质如何相互作用对于解释细胞功能的复杂性至关重要,对药物开发和疾病治疗也具有重要意义。

洛桑联邦理工学院(École Polytechnique Fédérale de Lausanne,EPFL)的 Anne-Florence Bitbol 团队提出了一种配对相互作用的蛋白质序列的方法,该方法利用了在多个序列比对上训练的蛋白质语言模型的强大功能;它对于小型数据集表现良好,它可以通过监督方法改进蛋白质复合物的结构预测。

该研究以「Pairing interacting protein sequences using masked language modeling」为题,于 2024 年 6 月 24 日发布在《PNAS》。

精度媲美AlphaFold,EPFL的AI方法从序列中匹配蛋白质互作

蛋白质间的相互作用对细胞功能至关重要,它们确保了信号传导的特异性和多蛋白复合体(如分子马达或受体)的形成。预测蛋白质-蛋白质相互作用及其复合体结构是计算生物学和生物物理学中的重要课题。

尽管 AlphaFold 等深度学习方法在蛋白质单体结构预测上取得重大进展,但对于复合体结构的预测性能仍不如同单体预测,且存在异质性。AlphaFold 首先构建查询蛋白序列的同源多序列比对(MSA),而 MSA 的质量对预测准确性极为关键。

对于涉及多种链的蛋白质复合体(异源多聚体),配对 MSA 能提供交互伙伴间的协同进化信息,有助于推断链间接触,但构建正确配对的 MSA 是一大挑战;尤其是在真核生物中,因存在众多同源蛋白且非依赖于基因组邻近性。

目前,结合基因组邻近性、近似同源性、基于系统发生的方法及协同进化策略等手段来应对这一挑战,其中协同进化方法虽数据需求大,但在优化配对和预测复合体结构方面展现出潜力,特别是通过最大化协同进化信号来匹配同源蛋白。

EPFL 的 Anne-Florence Bitbol 团队开发了一种配对相互作用蛋白质序列的方法,该方法利用了在多序列比对 (MSA) 上训练的蛋白质语言模型的强大功能,例如 MSA Transformer 和 AlphaFold 的 EvoFormer 模块。这使它能够高度准确地理解和预测蛋白质之间的复杂相互作用。

基于这些,研究人员提出了使用基于对齐的语言模型(DiffPALM)的可微分配对,这是一种使用 MLM 预测同源词匹配的可微分方法。

精度媲美AlphaFold,EPFL的AI方法从序列中匹配蛋白质互作

图示:DiffPALM 在小型 HK-RR MSA 上的性能。(来源:论文)

在从普遍存在的原核生物蛋白质数据集中提取的浅层 MSA 的困难基准测试中,它的表现远胜于现有的协同进化方法。当提供已知的相互作用对作为示例时,DiffPALM 性能会进一步快速提高。

基于协同进化的配对方法,主要研究蛋白质序列在紧密相互作用时如何随着时间的推移一起进化——一种蛋白质的变化可能导致其相互作用分子的变化。这是分子和细胞生物学中一个极其重要的课题,在 MSA 上训练的蛋白质语言模型可以很好地捕捉到这一点。

精度媲美AlphaFold,EPFL的AI方法从序列中匹配蛋白质互作

图示:使用不同配对方法的 AFM 性能。(来源:论文)

之后,该团队将 DiffPALM 应用于真核蛋白质复合物的同源物匹配难题。为此,研究人员将 DiffPALM 配对的序列作为 AFM 的输入。在测试的复合物中,使用 DiffPALM 在某些情况下可以显著改善 AFM 的结构预测。它还实现了与使用基于直系同源物的配对相媲美的性能。

精度媲美AlphaFold,EPFL的AI方法从序列中匹配蛋白质互作

图示:正例的影响、MSA 深度以及对另一对蛋白质家族的扩展。(来源:论文)

DiffPALM 的应用在基础蛋白质生物学领域显而易见,但它的应用范围不止于此,因为它有可能成为医学研究和药物开发的有力工具。例如,准确预测蛋白质相互作用有助于了解疾病机制和开发有针对性的治疗方法。

研究人员已免费提供 DiffPALM,希望科学界广泛采用它以进一步推动计算生物学的发展,并使研究人员能够探索蛋白质相互作用的复杂性。

DiffPALM 结合先进的机器学习技术和对复杂生物数据的有效处理,标志着计算生物学向前迈出了重大一步。

它不仅增强了科学家对蛋白质相互作用的理解,而且开辟了医学研究的新途径,有可能带来疾病治疗和药物开发的突破。

论文链接:https://www.pnas.org/doi/10.1073/pnas.2311887121

相关报道:https://phys.org/news/2024-06-ai-based-approach-protein-interaction.html

相关资讯

1.8B参数,阿里云首个联合DNA、RNA、蛋白质的生物大模型,涵盖16.9W物种

编辑 | 萝卜皮不久之前,Google DeepMind 发布了 AlphaFold3,再次引发了人们对「AI 生命科学」的讨论。在学界,科学家的目标往往是先认识世界,然后在认识的基础上改造世界。但是在生命科学领域,人类对整个生命的理解与认识还如九牛一毛、冰山一角;建立对生命系统的多维度深刻认识是当前人类研究的重要一步,AI 是达成这一步的重要工具。近期,阿里云飞天实验室发布并开源了业界首个联合 DNA、RNA、蛋白质的生物大模型「LucaOne」。这是一种新型预训练基础模型,旨在综合学习遗传和蛋白质组语言,涵

DeepMind蛋白质设计新工具AlphaProteo,从头设计高亲和力蛋白结合剂,成功率最高88%

编辑 | ScienceAI像 AlphaFold 这样的蛋白质结构预测工具,已经帮助我们深入了解了蛋白质如何相互作用从而发挥其功能,但这些工具无法创建新的蛋白质来直接控制这些相互作用。现在,Google DeepMind 团队推出了一种用于设计「与目标分子结合更紧密」的新型蛋白质的 AI 系统 AlphaProteo。在测试的 7 种靶蛋白上,AlphaProteo 的实验成功率更高,在湿实验室中测试中,9% 到 88% 候选分子成功结合,这比其他方法高出 5 到 100 倍。而且,比现有最佳方法的结合亲和力高出

AI蛋白大模型推动生物产业变革,分子之心完成A轮融资

编辑 | ScienceAI在生物经济智能化升级的浪潮中,业界领先的AI蛋白质设计平台公司分子之心宣布于近期完成 A 轮融资。本轮融资额达数亿元人民币,由谢诺投资、深创投联合领投,商汤国香资本、久奕投资跟投。作为具有行业标杆地位的 AI 生物大分子设计平台公司,分子之心本轮融资将进一步提速 AI 生物基础设施建设。分子之心创始人、国际知名计算生物学家许锦波表示,本轮融资将用于进一步扩大顶级复合型人才团队,深入完善AI蛋白质基础大模型、AI 蛋白质优化设计平台 MoleculeOS 等生物经济共性技术平台,加速AI蛋