猜测所有生物份子,David Baker 团队蛋白质设计新工具 RoseTTAFold All-Atom 登 Science

编辑 | ScienceAI在蛋白领域,华盛顿大学 David Baker 团队又带来了新进展。蛋白质是生命存在不可或缺的份子,但它们不是细胞中唯一的份子,参与生命过程它们必须与其他份子相互协作。近年来,AlphaFold 和 RoseTTAFold 等蛋白质构造猜测算法,席卷了构造生物学领域。深度学习方法彻底改变了蛋白质构造猜测和设计方式,但目前仅限于纯蛋白质系统。问题是,这些模型忽略了许多影响蛋白质构造的化学类型。「例如,许多生物学涉及蛋白质与小份子相互作用。」华盛顿大学教授 David Baker 说。「这是

猜测所有生物份子,David Baker 团队蛋白质设计新工具 RoseTTAFold All-Atom 登 Science

编辑 | ScienceAI

在蛋白领域,华盛顿大学 David Baker 团队又带来了新进展。

蛋白质是生命存在不可或缺的份子,但它们不是细胞中唯一的份子,参与生命过程它们必须与其他份子相互协作。

近年来,AlphaFold 和 RoseTTAFold 等蛋白质构造猜测算法,席卷了构造生物学领域。

深度学习方法彻底改变了蛋白质构造猜测和设计方式,但目前仅限于纯蛋白质系统。

问题是,这些模型忽略了许多影响蛋白质构造的化学类型。「例如,许多生物学涉及蛋白质与小份子相互作用。」华盛顿大学教授 David Baker 说。

「这是我们想要测试的一种假设:是否有可能训练一个可以代表所有这些不同类型份子的模型?」 论文一作 Rohith Krishna 说道。

鉴于此,Baker 团队开发了 RoseTTAFold All-Atom(RFAA),它可以将氨基酸和 DNA 碱基的鉴于残基的表达与所有其他基团的原子表达相结合,从而对包含蛋白质、核酸、小份子、金属和给定序列和化学构造的共价润饰的组件举行建模。

该研讨以「Generalized biomolecular modeling and design with RoseTTAFold All-Atom」为题,于 2024 年 3 月 7 日发布在《Science》。

猜测所有生物份子,David Baker 团队蛋白质设计新工具 RoseTTAFold All-Atom 登 Science

深度神经搜集 AlphaFold2(AF2)和 RoseTTAFold 实现了高精度从氨基酸序列猜测蛋白质构造。

这些机器学习工具在已经通过实验解决的蛋白质构造上举行训练,仅根据蛋白质的氨基酸序列猜测新的 3D 构造。生物化学家利用这些猜测来提出有关蛋白质如何工作以及它们如何组合在一起的假设,并且还使用这些工具来设计具有所需功能的新蛋白质。

然而,在自然界中,蛋白质很少单独发生作用,它们在细胞信号传导中与其他蛋白质形成复合物,在转录和翻译过程中与 DNA 和 RNA 相互作用,在代谢过程中与小份子举行共价或非共价相互作用。

目前,模拟一般的生物份子组件所组成的多肽链,共价润饰的氨基酸、核酸链,以及任意的小份子,仍然是一个突出的挑战。

将构造猜测推广到所有生物份子

华盛顿大学 David Baker 团队开发了一种构造猜测方法,可以生成一个生物单元的所有原子的三维坐标,包括蛋白质、核酸、小份子、金属和化学润饰。

面对广义生物份子系统建模的更广泛的挑战,研讨职员面临的第一个问题是如何表达组成单元。现有的蛋白质构造猜测搜集表达蛋白质线性链的氨基酸,这种表达可以很容易地扩展到核酸。

然而,许多与蛋白质相互作用的小份子并不是聚合物,而且目前还不清楚如何将它们建模为线性序列。表达小份子键合构造的一种自然方法是用图来表达,图中的节点是原子,图中的边表达键的连通性。这种图表达并不适合蛋白质,因为它们包含成千上万的原子,所以整个蛋白质在原子水平上建模在计算方面非常棘手。

为了克服这一限制,研讨职员尝试将生物聚合物(蛋白质和核酸)的鉴于序列的描述,与小份子和蛋白质共价润饰的解剖图表达相结合。

通过对扩散去噪任务举行微调,研讨职员获得了 RFdiffusion All-Atom (RFdiffusionAA),它通过直接在小份子和其他非蛋白质份子周围构建蛋白质构造,来生成结合口袋。

Baker 表达:「原则上,经过更多样化数据集训练的搜集应该能够更好地举行泛化。」他补充说,研讨职员计划让该搜集取代任务特定版本的 RoseTTAFold。

猜测所有生物份子,David Baker 团队蛋白质设计新工具 RoseTTAFold All-Atom 登 Science

图示:使用 RoseTTAFold All-Atom 举行一般生物份子建模。(来源:论文)

具体来说,研讨职员根据 RoseTTAFold2(RF2)蛋白质构造猜测搜集对搜集架构举行建模,该搜集可以接受 1D 序列信息、来自同源模板的 2D 成对距离信息和 3D 坐标信息,并通过许多隐藏层迭代改进猜测构造。

与蛋白质和核酸序列不同,份子图是排列不变的,因此,无论小份子元素标记顺序如何,搜集都应该做出相同的猜测。AF2 和 RF2 中,氨基酸和碱基的序列顺序是通过相对位置编码来表达的;对于原子,该团队省略了这样的编码并利用搜集注意力机制的排列不变性。

研讨职员还修改了坐标革新:在 AF2 和 RF2 中,蛋白质残基由 C 坐标和 N-C -C 刚性框架 α 的方向 α 表达,并且沿着 3D 轨迹,搜集生成每个框架方向的旋转革新,以及每个坐标的平移革新。

为了在 RFAA 中概括这一点,重原子坐标被添加到 3D 轨迹中,并仅根据对其位置的猜测平移革新独立移动。因此,在输入后,整个系统立即被表达为氨基酸残基、核酸碱基以及自由移动原子的断开气体,它通过搜集的许多块连续转化为物理上合理的组装构造。

对于指导参数优化的损失函数,研讨职员开发了 AF2 中引入的帧对齐点误差(FAPE)损失的全原子版本,通过根据其键合邻居的身份定义任意份子中每个原子的坐标系,与鉴于残基的 FAPE 一样,连续对齐每个坐标系并计算周围原子的坐标误差。

除了原子坐标之外,搜集还可以猜测原子和残基置信度 (pLDDT) 和成对置信度 (PAE) 指标,从而能够识别高质量的猜测。

应用及展望

在蛋白质数据库(PDB)中对完整生物组装体的构造举行训练后,RFAA 具有与 AF2 相当的蛋白质构造猜测准确性,在 CAMEO 中具有出色的灵活骨架小份子对接性能,并且对蛋白质共价润饰以及具有多个核酸链和小份子的蛋白质组装具有合理的猜测准确性。

猜测所有生物份子,David Baker 团队蛋白质设计新工具 RoseTTAFold All-Atom 登 Science

图示:RoseTTAFold All-Atom 可以准确猜测蛋白质-小份子复杂构造。(来源:论文)

在此之前,没有方法可以同时建模。同时,从目标小份子周围氨基酸残基的随机分布开始,该团队设计并通过实验验证了与心脏病治疗剂地高辛、酶促辅因子血红素和光学活性胆碱份子结合的蛋白质,这些蛋白质具有扩大光合作用捕获的波长范围的潜力。

美国国家医学图书馆(National Library of Medicine)的计算生物学家 Lauren Porter 表达,该搜集前景广阔,但需要时间来了解它所代表的巨大进步,以及它可能存在的不足。她说,人工智能模型总体而言「取决于它们的训练集」。它们可能会在可用训练数据有限的领域遇到困难,例如当单个蛋白质根据其上下文采用两种截然不同的形状时。生物化学家本身并不知道其中许多案例,因此需要时间才能发现这些差异。

尽管如此,Porter 说,「这无疑是朝着正确方向迈出的一步,也许是一个重大的一步,时间会证明一切。」

论文链接:https://www.science.org/doi/10.1126/science.adl2528

参考内容:https://cen.acs.org/analytical-chemistry/structural-biology/new-tool-protein-designers/101/i36

给TA打赏
共{{data.count}}人
人已打赏
理论

AI4Science的基石:多少图神经网络,最全综述来了!人大高瓴联合腾讯AI lab、清华、斯坦福等发布

2024-3-7 16:17:00

理论

兼具精度与服从,微软鉴于AI的新电子构造盘算框架登Nature子刊

2024-3-12 17:54:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索