探索蛋白质动态变化,新AI方法JAMUN比标准MD模拟更快、更准确

编辑 | 白菜叶蛋白质结构的动态变化对于理解其功能和开发靶向药物治疗至关重要,尤其是对于隐蔽的结合位点。 然而,现有的生成构象集合的方法存在效率低下或缺乏通用性的问题,无法在训练系统之外发挥作用。 分子动力学 (MD) 模拟是当前探索蛋白质运动的标准,但计算成本高昂,且受短时间步长要求的限制,因此难以捕捉较长时间尺度上发生的更广泛蛋白质构象变化。

图片

编辑 | 白菜叶

蛋白质结构的动态变化对于理解其功能和开发靶向药物治疗至关重要,尤其是对于隐蔽的结合位点。然而,现有的生成构象集合的方法存在效率低下或缺乏通用性的问题,无法在训练系统之外发挥作用。

分子动力学 (MD) 模拟是当前探索蛋白质运动的标准,但计算成本高昂,且受短时间步长要求的限制,因此难以捕捉较长时间尺度上发生的更广泛蛋白质构象变化。

Prescient Design 和 Genentech 的研究人员推出了 JAMUN(walk-Jump Accelerated Molecular ensembles with Universal Noise),这是一种新颖的机器学习模型,旨在通过实现对蛋白质构象集合的有效采样来克服这些挑战。

该研究以「JAMUN:Transferable Molecular Conformational Ensemble Generation with Walk-Jump Sampling」为题,于 2024 年 10 月 18 日发布在 arXiv 预印平台。

图片

JAMUN 将 Walk-Jump Sampling(WJS)扩展到 3D 点云,代表蛋白质原子坐标。通过利用 SE(3) 等变去噪网络,JAMUN 可以以比传统 MD 方法或当前基于 ML 的方法高得多的速度对任意蛋白质的玻尔兹曼分布进行采样。

JAMUN 还表现出了显著的转移到新系统的能力,这意味着它甚至可以为不属于其训练数据集的蛋白质结构生成可靠的构象集合。

所提出的方法基于「Walk-Jump Sampling」的概念,即将噪声添加到干净的数据中,然后训练神经网络对其进行去噪,从而实现平稳的采样过程。

JAMUN 在「Walk」阶段采用朗之万动力学,这已经是分子动力学 MD 模拟中的标准方法。

然后,「Jump」步骤会投射回原始数据分布,从而将过程与每次重新开始分离,而这通常是扩散模型所为。通过分离 Walk 和 Jump 步骤,JAMUN 可以平滑数据分布,足以解决采样困难,同时保留 MD 数据固有的物理先验。

图片

图示:Walk-Jump Sampling 概述。(来源:论文)

JAMUN 是在两种氨基酸肽的分子动力学模拟数据集上进行训练的,并成功推广到未见过的肽。结果表明,JAMUN 可以比标准 MD 模拟更快地对小肽的构象集合进行采样。

例如,JAMUN 在一小时内计算生成了具有挑战性的封端肽的构象状态,而传统的 MD 方法需要更长的时间来覆盖类似的分布。

JAMUN 还与可转移玻尔兹曼生成器 (TBG) 模型进行了比较,展示了显著的加速和相当的准确性,尽管它仅限于玻尔兹曼模拟而不是精确采样。

JAMUN 提供了一种强大的新方法来生成蛋白质的构象集合,平衡了效率和物理精度。它能够以比 MD 快得多的速度生成集合,同时保持可靠的采样,使其成为蛋白质结构预测和药物发现应用的有前途的工具。

未来的工作将侧重于将 JAMUN 扩展到更大的蛋白质,并改进去噪网络以实现更快的采样。

通过利用 Walk-Jump 采样,JAMUN 朝着可推广、可转移的蛋白质构象集合生成解决方案迈出了重要一步,这对于生物学理解和药物创新都至关重要。

论文链接:https://arxiv.org/abs/2410.14621

相关内容:https://www.marktechpost.com/2024/10/21/jamun-a-walk-jump-sampling-model-for-generating-ensembles-of-molecular-conformations/

相关资讯

Science子刊,斯坦福AI方法表示蛋白互作节点,增强功能识别与PPI推理

编辑 | 白菜叶生物网络通过详细描绘基因、蛋白质及其他细胞成分之间的复杂相互作用,为建模生物系统提供了重要工具。 这些网络将实体表示为节点,将其相互作用(从物理连接到功能关联)表示为边,从而为解析生物系统和过程的复杂性奠定了基础。 例如,在蛋白质-蛋白质相互作用(PPI)网络中,复杂的连接关系包含了理解细胞过程和疾病机制的关键信息。

AI赋能蛋白质研究:SaprotHub让蛋白质AI模型训练和调用不再有门槛!

编辑 | ScienceAI近年来,AI 技术在蛋白质研究领域发挥了越来越重要的作用。 从 AlphaFold2 在结构预测任务上的脱颖而出,到各类蛋白质语言模型(PLMs)在功能预测方面的重大进展,生物研究者们可以利用各式各样的 AI 模型来辅助他们的研究。 然而,随着模型变得越来越复杂,如何训练和调用这些 AI 模型对于缺乏机器学习专业知识的研究者来说是一件非常具有挑战的任务,也因此限制了 AI 技术在实际研究中的应用。

速度提高40w倍,牛津新的ML策略计算蛋白的自由能扰动,助力药物发现

编辑 | 白菜叶机器学习为快速准确地预测结合亲和力提供了巨大的希望。 然而,目前的模型缺乏稳健的评估,无法完成(命中到)先导化合物优化中遇到的任务,例如对一系列同类配体的结合亲和力进行排序,从而限制了它们在药物发现中的应用。 牛津大学的研究团队首先提出了一种新的基于注意力的图神经网络模型 AEV-PLIG(原子环境向量-蛋白质配体相互作用图),以解决这些问题。