更高准确性,覆盖蛋白、核酸、复合物等更多分子,DeepMind发布AlphaFold新版本

编辑 | ScienceAI自 2020 年发布以来,AlphaFold 彻底改变了人们对蛋白质及其相互作用的理解方式。Google DeepMind 和 Isomorphic Labs 一直在共同努力,为更强大的 AI 模型奠定基础,将覆盖范围从蛋白质扩展到全方位的生物相关分子。2023 年 10 月 31 日,该研究团队分享了下一代 AlphaFold 的最新进展。其最新的模型现在可以对蛋白质数据库 (PDB) 中的几乎所有分子进行预测,通常达到原子精度。新版模型 AlphaFold-latest (暂称)极大

更高准确性,覆盖蛋白、核酸、复合物等更多分子,DeepMind发布AlphaFold新版本

编辑 | ScienceAI

自 2020 年发布以来,AlphaFold 彻底改变了人们对蛋白质及其相互作用的理解方式。Google DeepMind 和 Isomorphic Labs 一直在共同努力,为更强大的 AI 模型奠定基础,将覆盖范围从蛋白质扩展到全方位的生物相关分子。

2023 年 10 月 31 日,该研究团队分享了下一代 AlphaFold 的最新进展。其最新的模型现在可以对蛋白质数据库 (PDB) 中的几乎所有分子进行预测,通常达到原子精度。

新版模型 AlphaFold-latest (暂称)极大地扩展了应用范围,能够预测包括蛋白质、核酸、小分子、离子和修饰残基在内的复合物的联合结构。这些不同的结构类型和复合物对于理解细胞内的生物机制至关重要。

在大多数情况下, AlphaFold-latest 比以前的专业工具大大提高了准确性:蛋白质-配体相互作用的准确性优于最先进的对接工具,蛋白质-核酸相互作用的准确性优于 RoseTTA2FoldNA 等专业预测模型,抗体-抗原预测准确性比 AlphaFold-Multimer 显著提高。

该模型扩展的功能和性能有助于加速生物医学突破并实现「数字生物学」的下一个时代——为疾病途径、基因组学、生物可再生材料、植物免疫、潜在治疗靶点、药物设计机制以及实现蛋白质工程和合成生物学的新平台的功能提供新的见解。

超越蛋白质折叠

AlphaFold 是单链蛋白预测的根本性突破。AlphaFold-Multimer 随后扩展到具有多个蛋白质链的复合物,随后是AlphaFold2.3,它提高了性能并将覆盖范围扩大到更大的复合物。

2022 年,AlphaFold 与 EMBL 的欧洲生物信息学研究所(EMBL-EBI)合作,通过 AlphaFold 蛋白质结构数据库免费提供了几乎所有科学界已知的已编目蛋白质的结构预测。

迄今为止,已有 190 多个国家的 140 万用户访问了 AlphaFold 数据库,世界各地的科学家已经使用 AlphaFold 的预测来帮助推进各种研究,从加速新的疟疾疫苗和推进癌症药物的发现,到开发用于解决污染的塑料食用酶。

在这里,研究人员展示了 AlphaFold-latest 在预测蛋白质折叠之外的精确结构方面的卓越能力,可以在配体、蛋白质、核酸和翻译后修饰之间产生高精度的结构预测。

更高准确性,覆盖蛋白、核酸、复合物等更多分子,DeepMind发布AlphaFold新版本

图:AlphaFold 最新功能和性能;蛋白质-配体复合物 (a)、蛋白质 (b)、核酸 (c) 和共价修饰 (d) 的性能。(来源:论文)

AlphaFold-latest 将生物组装的描述作为输入,其中包含聚合物序列和配体 SMILES,以及可选的共价键合配体的序列位置,并输出每个重原子 3D 位置的预测。水和氢被排除在外。用于训练模型的所有实验结构均来自 PDB,发布日期截至 2021 年 9 月 30 日。模板仅过滤为 2021 年 9 月 30 日之前发布的模板。

输入被「标记化」以获得模型输入,每个标准聚合物残基有一个标记,配体和非标准聚合物残基的每个重原子有一个标记。Token 的数量是不同硬件上计算时间和预测大小限制的主要驱动因素。为了便于计算,该团队在最多 5,120 个 token 的复合体上评估系统性能,但系统能够在具有大量内存的加速器上运行更大的复合体。

每个输出结构都带有每个原子、每个 token 对和聚合结构级置信度度量。此外,结构内的每个实体以及结构内实体之间的每个接口都具有关联的置信度度量。

在这里,研究人员主要展示了四个类别的性能:

(1)尽管基线使用真实结合蛋白质结构作为输入,但 AlphaFold-latest 在 PoseBusters 配体对接基准上优于 AutoDock Vina 等经典系统,而 AlphaFold-latest 仅从蛋白质序列和配体身份开始。

(2)它在蛋白质-蛋白质结构预测方面改进了 AlphaFold 2.3,特别是在某些类别(例如抗体结合结构)中。

(3)在蛋白质-核酸界面上,AlphaFold-latest 优于竞争系统,而对于 RNA 结构预测,它优于自动化方法,但略低于使用手动专家干预的顶级 CASP15 参赛者 (AIchemy_RNA2)。

(4)AlphaFold-latest 能够预测其他实体的结构,如键合配体、糖基化和修饰的残基或核苷酸。

更高准确性,覆盖蛋白、核酸、复合物等更多分子,DeepMind发布AlphaFold新版本

图:来自 AlphaFold 最新的结构预测。(来源:论文)

加速药物发现

早期分析还表明,AlphaFold-latest 模型在一些与药物发现相关的蛋白质结构预测问题(如抗体结合)上大大优于AlphaFold2.3。此外,准确预测蛋白质配体结构是一种非常有价值的药物发现工具,因为它可以帮助科学家识别和设计可能成为药物的新分子。

目前的行业标准是使用「对接方法」来确定配体和蛋白质之间的相互作用。这些对接方法需要一个严格的参考蛋白结构和配体结合的建议位置。

AlphaFold-latest通过优于报道的最佳对接方法,为蛋白质-配体结构预测设定了新的标准,而不需要参考蛋白质结构或配体口袋的位置-允许预测以前未被结构表征的全新蛋白质。

它还可以联合模拟所有原子的位置,使其能够代表蛋白质和核酸与其他分子相互作用时的全部固有灵活性-这是使用对接方法无法实现的。

例如,以下是最近发表的三个与治疗相关的病例,AlphaFold-latest 预测的结构(以彩色表示)与实验确定的结构(用灰色表示)非常吻合:

PORCN::一种临床阶段的抗癌分子,与另一种蛋白质结合在一起。

KRAS:具有重要癌症靶点共价配体(一种分子胶)的三元配合物。

PI5P4Kγ:脂质激酶的选择性变构抑制剂,与多种疾病相关,包括癌症和免疫疾病。

更高准确性,覆盖蛋白、核酸、复合物等更多分子,DeepMind发布AlphaFold新版本

图:案例研究展示了 AlphaFold-latest 在治疗相关结构上的性能;PORCN (a)、KRAS (d) 和 PI5P4Kγ (e)。(来源:论文)

Isomorphic Labs 正在将新一代 AlphaFold 模型应用于治疗药物设计,帮助快速准确地表征许多类型的大分子结构,这些大分子结构对治疗疾病很重要。

对生物学的新认识

通过解锁蛋白质和配体结构以及核酸和含有翻译后修饰的结构的建模,AlphaFold-latest 为检查基础生物学提供了更快速和准确的工具。

其中一个例子涉及到 CasLambda 与 crRNA 和 DNA 结合的结构,这是 CRISPR 家族的一部分。CasLambda 具有 CRISPR-Cas9 系统的基因组编辑能力,通常被称为「基因剪刀」,研究人员可以用它来改变动物、植物和微生物的DNA。CasLambda 更小的体积可以更有效地用于基因组编辑。

更高准确性,覆盖蛋白、核酸、复合物等更多分子,DeepMind发布AlphaFold新版本

图:AlphaFold-latest 预测的核酸-蛋白复合体结构。(来源:论文)

AlphaFold 的最新版本能够模拟如此复杂的系统,这表明人工智能可以帮助我们更好地理解这些类型的机制,并加速它们在治疗应用中的应用。

推进科学探索

AlphaFold-latest 在性能上的巨大飞跃表明,人工智能有潜力极大地增强对构成人体的分子机器的科学理解——以及更广阔的自然世界。

虽然该研究仍在积极开发中,但谷歌 DeepMind 和 Isomorphic Labs 的研究人员相信,一般生物分子的计算结构预测可以通过 AlphaFold 等机器学习模型来实现,并为理解生物学开辟了许多令人兴奋的未来研究途径。

论文链接:https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/a-glimpse-of-the-next-generation-of-alphafold/alphafold_latest_oct2023.pdf

相关报道:https://deepmind.google/discover/blog/a-glimpse-of-the-next-generation-of-alphafold/?continueFlag=67dc1e0d8f45af09eec4ca511a2dcc9b

相关资讯

成功率超越RoseTTAFold系列,用序列信息直接预测蛋白质-配体复合物结构

编辑 | 萝卜皮蛋白质-配体对接是药物发现和开发中一种成熟的工具,用于缩小实验测试的潜在治疗范围。然而,高质量的蛋白质结构是必需的,而且蛋白质通常被视为完全或部分刚性的。在这里,柏林自由大学(Freie Universität Berlin)的研究人员开发了一个人工智能系统,可以直接从序列信息预测蛋白质-配体复合物的完全柔性全原子结构。虽然经典对接方法仍然更胜一筹,但这也取决于目标蛋白质的晶体结构。除了预测灵活的全原子结构外,预测置信度指标 (plDDT) 还可用于选择准确的预测,以及区分强结合剂和弱结合剂。该研究

结合量子特征、2万个分子动力学模拟,新蛋白-配体复合物ML数据集,登Nature子刊

编辑 | 枯叶蝶大型语言模型极大地增强了科学家理解生物学和化学的能力,但基于结构的药物发现、量子化学和结构生物学的可靠方法仍然很少。大型语言模型迫切需要精确的生物分子-配体相互作用数据集。为了解决这个问题,德国亥姆霍兹慕尼黑研究中心结构生物学所和慕尼黑工业大学的研究人员,提出了 MISATO。这是一个数据集,它结合了小分子的量子力学(QM)特性,还有约 20,000 个实验蛋白质-配体复合物的相关分子动力学(MD)模拟,以及对实验数据的广泛验证。从现有的实验结构出发,研究人员利用半经验量子力学系统地完善了这些结构。

OpenAI 找回场子:chatgpt-4o-latest AI 模型力压谷歌 Gemini 1.5 Pro,多项跑分重夺第一

谷歌上周发布最强 Gemini 1.5 Pro 模型,在 LMSYS 的聊天机器人竞技场(Chatbot Arena)比赛中取得第一名,而 OpenAI 迅速“找回场子”,最新 chatgpt-4o-latest 模型重夺第一。chatgpt-4o-latest 简介OpenAI 公司上周发布了 gpt-4o-2024-08-06,其 API 支持结构化输出;昨日再次发布了名为 chatgpt-4o-latest 的全新前沿模型,是 GPT-4o 的最新版本,上下文窗口输入最高 128000 个词元(tokens)