多伦多大学团队使用AlphaFold获得对蛋白质结构的新见解

编辑 | 萝卜皮AlphaFold 蛋白质结构数据库包含数百万种蛋白质的预测结构。对于大多数含有本质无序区域 (IDR) 的人类蛋白质,这些区域不采用稳定的结构,通常认为这些区域具有较低的 AlphaFold2 置信度分数,反映了低置信度的结构预测。多伦多大学(University of Toronto)的研究团队表明 AlphaFold2 为近 15% 的人类 IDR 分配了可信结构。通过与已知条件折叠(即在结合或其他特定条件下)的 IDR 子集的实验 NMR 数据进行比较,研究人员发现 AlphaFold2 通

多伦多大学团队使用AlphaFold获得对蛋白质结构的新见解

编辑 | 萝卜皮

AlphaFold 蛋白质结构数据库包含数百万种蛋白质的预测结构。对于大多数含有本质无序区域 (IDR) 的人类蛋白质,这些区域不采用稳定的结构,通常认为这些区域具有较低的 AlphaFold2 置信度分数,反映了低置信度的结构预测。

多伦多大学(University of Toronto)的研究团队表明 AlphaFold2 为近 15% 的人类 IDR 分配了可信结构。通过与已知条件折叠(即在结合或其他特定条件下)的 IDR 子集的实验 NMR 数据进行比较,研究人员发现 AlphaFold2 通常可以预测条件折叠状态的结构。

基于已知条件折叠的 IDR 数据库,该团队估计 AlphaFold2 可以在 10% 的误报率下以高达 88% 的精度识别条件折叠 IDR。同时,研究人员发现人类疾病突变中条件折叠的 IDR 比一般 IDR 丰富了近五倍,并且预计原核生物中高达 80% 的 IDR 会条件折叠,而真核生物 IDR 的比例不到 20%。

这些结果表明,人类和其他真核生物蛋白质组中的绝大多数 IDR 在没有条件折叠的情况下发挥作用,但确实获得折叠的区域对突变更敏感。这说明,目前 AlphaFold2 预测并未揭示 IDR 内功能相关的结构可塑性,也无法提供条件折叠 IDR 的真实整体表示。

该研究以「Systematic identification of conditionally folded intrinsically disordered regions by AlphaFold2」为题,于 2023 年 10 月 25 日发布在《PNAS》。

多伦多大学团队使用AlphaFold获得对蛋白质结构的新见解

准确预测 IDR 对人类疾病研究很重要

从氨基酸序列准确预测蛋白质结构一直是生物学的长期目标。两种基于深度学习的方法 AlphaFold2 和 RoseTTAFold 最近实现了高精度的蛋白质结构预测。DeepMind 随后预测了人类蛋白质组中 98.5% 的蛋白质的结构。与欧洲生物信息学研究所合作,通过 AlphaFold 蛋白质结构数据库(AFDB)可以公开获得许多生物体的蛋白质组结构预测。

AFDB 的一个意想不到的效果是,它直观地展示了本质无序区域 (IDR) 的普遍性。IDR 预计约占人类蛋白质组的 30%;作为转录、翻译和信号转导中的相互作用中心,发挥重要的细胞作用;并富含与神经系统疾病和其他疾病相关的蛋白质。此外,最近已经发现,IDR 通过导致相分离的多价相互作用促进和调节许多体内生物分子缩合物的形成。

在 IDRs 中发现了许多与疾病相关的突变,包括与自闭症谱系障碍(ASD)和癌症有关的突变,涉及 IDRs 的异常相分离与肌萎缩性脊髓侧索硬化症、ASD 和癌症等疾病有关,这突出表明需要了解这些突变的结构和生物物理影响。

准确预测 IDR 还有些困难

在结构层面上,IDR 的定义是缺乏稳定的二级和三级结构以及不同构象之间的快速相互转换。由于其快速动力学,IDR 不适合高分辨率结构测定方法,并且经常被去除或在 X 射线晶体学和冷冻电子显微镜测定的结构中观察不到。相比之下,AlphaFold2 生成的结构模型包含整个蛋白质序列,包括 IDR,现在可以对以前「黑暗」且不可观察的蛋白质组的重要部分进行可视化预测。此外,由于低置信度 AlphaFold2 结构预测与内在紊乱之间存在很强的相关性,AlphaFold2 可以作为最先进的紊乱预测器。

然而,IDR 并不采用 AFDB 中描述的静态结构。相反,IDR 填充了一个强烈依赖于一级结构的相互转换构象的集合,并且这些集合的特性直接影响 IDR 的功能。然而,通过实验确定的 IDR 构象集合的结构信息仅占可用于折叠蛋白质的一小部分,并且此类集合不会存储在蛋白质数据库 (PDB) 中,它存储为训练 AlphaFold2 和 RoseTTAFold 而挖掘的高分辨率结构。PDB 中折叠 IDR 结构的存在歪曲了 IDR 其他功能状态的观点,并且没有为无数不符合「绑定时折叠」范式的其他 IDR 提供信息。

核磁共振波谱非常适合在原子分辨率下对 IDR 进行基于系综的结构表征。事实上,一系列 NMR 实验已被用来探测 IDR 的构象和其中的残余结构,并使用专门的软件程序专注于整合 NMR 和其他生物物理方法,以确定与实验数据最相符的 IDR 的整体表示。然而,用于确定 IDR 整体表示的综合结构生物学方法和 NMR 驱动的残余结构或二级结构倾向的确定均未存储在用于训练和验证深度学习模型的 PDB 中。

由于 AlphaFold2 是在排除 NMR 结构的 PDB 子集上进行训练的,因此 NMR 数据提供了独特的验证指标来评估解决方案中预测的 AlphaFold2 结构的准确性,正如最近所证明的那样。

AlphaFold 带来来新发现

「这一直是生物化学家和分子生物学家之间长期存在的争论——IDR 是否具有固定的结构,或者它们是否只是蛋白质的『软』部分。」多伦多大学细胞与系统生物学系教授、计算生物学家 Alan Moses 说,「我们证实,虽然 AlphaFold2 仍然不能很好地预测 IDR 的结构……它能做的是告诉我们哪些 IDR 可能具有某种结构——这在以前是不可能的。」

多伦多大学团队使用AlphaFold获得对蛋白质结构的新见解

图:人类蛋白质组中预测的 IDR 在 AFDB 中具有可靠的结构。(来源:论文)

多伦多大学的研究团队表明 AlphaFold2 预测数千个 IDR 会以高(70 ≤ x < 90)或非常高(≥90)预测局部差异距离测试 (pLDDT) 分数进行折叠,该分数衡量预测结构的置信度。

研究人员发现,与具有低 pLDDT 分数的 IDR 相比,具有高 pLDDT 分数的 IDR 的氨基酸序列表现出更多的位置保守性。只有 4% 的具有高 pLDDT 分数的 IDR 序列在 PDB 中具有比对匹配,这表明结构模板并不是 AlphaFold2 自信地折叠这些 IDR 的原因。

对于在特定条件下折叠的 IDR 子集,例如在结合伴侣存在下或翻译后修饰(PTM)后,并且已通过 NMR 光谱进行了广泛表征,该团队发现这些 IDR 的 AlphaFold2 结构类似于折叠状态的构象。

此外,对于已知在特定条件下折叠的 1,400 多个 IDR,研究人员观察到 AlphaFold2 置信度分数能够预测条件折叠。这表明 AlphaFold2 可以系统地识别在结合或修饰时折叠的无序区域。

与具有低置信度分数的 IDR 相比,具有高置信度 AlphaFold2 分数的 IDR 富含疾病相关突变。研究人员利用 AlphaFold2 比较真核生物、细菌和古细菌中的条件折叠,发现原核生物显示条件折叠 IDR 的比例要高得多,这使该团队得出结论,绝大多数真核 IDR 无需采用结构即可发挥作用。研究人员建议,具有高 pLDDT 分数的 IDR 可能会在存在特定结合伴侣或遵循 PTM 的情况下折叠,他们将其称为条件折叠。

多伦多大学团队使用AlphaFold获得对蛋白质结构的新见解

图:系统鉴定古细菌、细菌和真核生物中条件折叠的 IDR。(来源:论文)

讨论与结语

该团队的发现意义重大,因为 AlphaFold2 没有接受过预测 IDR 结构的训练,并且 IDR 也没有包含在其训练数据中。「这就像人工智能被训练来驾驶汽车,然后尝试看看它是否也可以驾驶公共汽车。」Moses 说,「它不能很好地驾驶公共汽车,但它可以识别出应该有人驾驶。」

该团队也是第一个对人类和其他生物体中的所有蛋白质进行系统研究的团队。「所以,我们第一次相信我们知道这种情况发生的频率。」Moses 说,「这很重要,因为生物学充满了例外。我们需要知道什么是常见的,什么是特殊的。」

AlphaFold2 这一强大且出人意料的应用的开发展示了利用人工智能解决蛋白质折叠问题的力量,并将提高研究人员对 IDR 及其在疾病中的作用的理解。

「在 AlphaFold2 预测具有某种结构的 IDR 中,我们已经证明突变比其他无结构 IDR 中的突变更有可能导致疾病。」Moses 说,「这是理解 IDR 突变如何导致疾病的重要进展,而人们通常对此还没有很好的了解。我们现在相信,许多突变正在以某种方式破坏结构。」

多伦多大学团队使用AlphaFold获得对蛋白质结构的新见解

图:使用 AlphaFold2 了解条件折叠 IDR 中致病突变的基础。(来源:论文)

「更重要的是,由于 AlphaFold2 预测已经适用于所有蛋白质,现在我们第一次可以说出生命树中有多少 IDR 具有结构。我们的论文表明,细菌 IDR 比人类和动物 IDR 更有可能具有结构。据我们所知,这是第一次注意到这一点,它可能会解决有关大多数 IDR 是否有结构的持续争论。」

论文链接:https://www.pnas.org/doi/10.1073/pnas.2304302120

相关报道:https://phys.org/news/2023-11-powerful-ai-tool-gain-insights.html

相关资讯

ScienceAI发展前瞻:AI与科学计算的双向影响

「机器之心2021-2022年度AI趋势大咖说」聚焦「驱动未来的AI技术」与「重塑产业的AI科技」,推出线上分享,共邀请近40位AI领域知名学者、产业专家及企业高管通过主题分享及多人圆桌等形式,与行业精英、读者、观众共同回顾 2021年中的重要技术和学术热点,盘点AI产业的年度研究方向以及重大科技突破,展望2022年度AI技术发展方向、AI技术与产业科技融合趋势。

精确预测相分离蛋白质,同济&中国科学院机器学习预测器PSPire

编辑 | 萝卜皮对蛋白质相分离(PS)的理解的迅速发展带来了丰富的生物信息学工具来预测相分离蛋白质(PSP)。这些工具通常偏向于具有大量本质无序区域 (IDR) 的 PSP,因此经常低估没有 IDR 的潜在 PSP。并且,PS 不仅受 IDR 控制,还受结构化模块结构域以及不直接反映在氨基酸序列的其他相互作用影响。在最新的研究中,同济大学和中国科学院的研究团队开发了 PSPIre,一种机器学习预测器,它结合了残基级和结构级特征,用于精确预测 PSP。与当前的 PSP 预测因子相比,PSPire 在识别没有 IDR

AI 大模型升级:蓝心千询、vivo 办公套件开放下载,其他品牌手机同样可用

在今天的 vivo X Fold3 系列发布会上,vivo 官方宣布蓝心大模型迎来全新升级,整体数据量跨越式升级到「端侧 7B」 「云侧 70B」的超大组合,实现超 700 种手机相关功能。最重要的是,蓝心大模型应用现在全面开放下载,不是 vivo 手机也能用,包括蓝心千询 AI 助手、vivo 办公套件都可以自行下载使用。就目前已知的手机厂商推出的 AI 助手中,似乎只有蓝心千询支持独立下载,不限品牌开放。此外,vivo 还将与南开大学联合承办「中国高校计算机大赛-AIGC 创新赛」,蓝心大模型开源赋能全社会,推