仅几秒,准确推断蛋白动力学信息,山大、北理工等AI模型RMSF-net登Nature子刊

编辑 | KX蛋白质的动力学对于理解其机制至关重要。然而,通过计算猜测蛋白质动学信息具有挑战性。在此,来自山东大学、百图生科(BioMap)、北京理工大学、湖北医药学院、宁夏医科大学和阿卜杜拉国王科技大学(KAUST)的研讨团队,提出了一个神经网络模型 RMSF-net,其优于以前的格式,并在大规模蛋白质动力学数据集中产生最佳结果;该模型可以在几秒钟内准确推断出蛋白质的动力学信息。通过从实验蛋白质布局数据和高温电子显微镜 (cryo-EM) 数据集成中有效地学习,该格式能够准确识别高温电子显微镜图和 PDB 模型之

仅几秒,准确推断蛋白动力学信息,山大、北理工等AI模型RMSF-net登Nature子刊

编辑 | KX

蛋白质的动力学对于理解其机制至关重要。然而,通过计算猜测蛋白质动学信息具有挑战性。

在此,来自山东大学、百图生科(BioMap)、北京理工大学、湖北医药学院、宁夏医科大学和阿卜杜拉国王科技大学(KAUST)的研讨团队,提出了一个神经网络模型 RMSF-net,其优于以前的格式,并在大规模蛋白质动力学数据集中产生最佳结果;该模型可以在几秒钟内准确推断出蛋白质的动力学信息。

通过从实验蛋白质布局数据和高温电子显微镜 (cryo-EM) 数据集成中有效地学习,该格式能够准确识别高温电子显微镜图和 PDB 模型之间的交互式双向约束和监督,以最大限度地提高动力学猜测效率。

RMSF-net 是一个可免费使用的工具,将在蛋白质动力学研讨中发挥重要作用。

该研讨以「Accurate Prediction of Protein Structural Flexibility by Deep Learning Integrating Intricate Atomic Structures and Cryo-EM Density Information」为题,于 7 月 2 日发布在《Nature Communications》上。

仅几秒,准确推断蛋白动力学信息,山大、北理工等AI模型RMSF-net登Nature子刊

论文链接:https://www.nature.com/articles/s41467-024-49858-x

RMSF-net github 地址:https://github.com/XintSong/RMSF-net

蛋白质的动力学对于理解其机制起着至关重要的作用。目前,大多数蛋白质是通过高温电子显微镜(cryo-EM)技术来解决的,其中大分子布局由 3D 密度图表示。

由于高温电子显微镜分析中原始二维粒子图像的分辨率和信噪比较低,在重建过程中无法分辨出微小的构象变化。

深度学习格式已广泛应用于高温电子显微镜图的自动分析。目前,给定一个高分辨率的高温电镜图谱,从高温电镜图谱精确建立一个蛋白质数据库(Protein Data Bank,PDB)模型模型并不困难。然而,这些建立的 PDB 模型没有考虑动力学信息,而从 PDB 模型计算动力学信息仍然是一项困难的分子动力学(MD)模仿任务,通常需要大量的计算资源和时间。

RMSF-net 概述

该研讨团队提出了一种用于高温电子显微镜密度图的神经网络模型 RMSF-net,该模型充分利用高温电子显微镜密度和 PDB 模型信息,可以在几秒钟内准确推断出蛋白质的动力学信息。

RMSF 是一种广泛使用的测量格式,用于评估 MD 分析中分子布局的灵活性。该格式的主要目的是猜测蛋白质内局部布局(残基、原子)的 RMSF。

仅几秒,准确推断蛋白动力学信息,山大、北理工等AI模型RMSF-net登Nature子刊

图示:RMSF-net。(来源:论文)

除了高温电子显微镜图之外,RMSF-net 还利用 PDB 模型作为额外输入,来产生非常接近 MD 模仿结果的 RMSF 猜测。

RMSF-net 是一个三维卷积神经网络,包含两个相互连接的模块。主模块采用 Unet + +(L3) 架构对输入密度框进行特征编码和解码。另一个模块利用 1 核卷积对 Unet + + 主干生成的特征图的通道进行回归。然后将中心裁剪应用于回归模块输出以获得中心 RMSF 子框,其中体素(voxel)值对应于其中包含的原子的 RMSF。最后,使用合并算法将 RMSF 子框在空间上合并为 RMSF 图。

此外,研讨人员还建立了一个大规模蛋白质动力学数据集用于 RMSF-net 的训练和考证,其中选择了 335 个具有拟合 PDB 模型的高温电子显微镜布局条目并执行相应的 MD 模仿。综合实验结果证明了 RMSF-net 的效率和有效性。

表:不同 RMSF 猜测格式在数据集上的表现。(来源:论文)

仅几秒,准确推断蛋白动力学信息,山大、北理工等AI模型RMSF-net登Nature子刊

特别是,RMSF-net 通过严格的 5 倍交叉考证在测试集上表现出色,与 MD 模仿结果的相关系数达到 0.746±0.127,比 DEFMap 提高了 15%,比基线提高了 10%。

动力学猜测的可解释性

接下来,研讨人员通过对比实验进一步增强了 RMSF-net 动力学猜测的可解释性。通过将仅基于高温电子显微镜图谱的 RMSF 猜测过程分为两个步骤(Occ2RMSF-net):(1)布局信息提取;(2)基于提取的布局信息进行动力学猜测。

研讨证明了基于高温电子显微镜图谱的模型(如 DEFMap 或 RMSF-net_cryo)的动力学猜测主要通过解读蛋白质布局来实现。这凸显了蛋白质拓扑布局与动力学之间的联系,符合布局-功能关系的第一原理。

仅几秒,准确推断蛋白动力学信息,山大、北理工等AI模型RMSF-net登Nature子刊

图示:RMSF-net 与其他相关格式的性能比较。(来源:论文)

此外,通过对 RMSF-net_cryo、RMSF-net_pdb 和最终的双组合 RMSF-net 进行全面比较,证明了:一方面,来自 PDB 模型的布局信息在 RMSF-net 中起主要作用,其中深度模型从 MD 模仿中学习布局拓扑和灵活性之间的模式,另一方面,高温电子显微镜图谱异质密度分布中包含的动力学信息进一步增强了模型。这些结果考证了高温电子显微镜图和 PDB 模型的信息对 RMSF-net 中的蛋白质动力学猜测的互补作用。

局限性与未来方向

不可否认的是,RMSF-net 主要限于猜测纯蛋白质及其复合物在溶液中的柔韧性。对于蛋白质在与小分子配体结合或在膜环境中的动力学特性,该格式在某些局部区域可能会表现出不准确性。

RMSF-net 的卓越性能揭示了进一步研讨该方向的可行性。该研讨还没有扩展到核酸和蛋白质-核酸复合物。综合表征大分子动力学的各个方面,包括多构象猜测和转变分析,在未来需要进一步进行广泛而深入的研讨。

尽管如此,作为猜测蛋白质动力学的工具,RMSF-net 由于其优越的性能和超快的处理速度,在蛋白质布局和动力学研讨中仍有很大的应用前景。

注:封面来自网络

给TA打赏
共{{data.count}}人
人已打赏
AI

高通公司亮相 2024 世界人工智能大会,孟樸:终端侧 AI 创新将让智能计算无处不在

2024-7-5 9:59:25

理论

迈向程序化蛋白质生成

2023-12-26 11:30:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索