探索蛋白质动态变化,新AI方法JAMUN比标准MD模拟更快、更准确

编辑 | 白菜叶蛋白质结构的动态变化对于理解其功能和开发靶向药物治疗至关重要,尤其是对于隐蔽的结合位点。 然而,现有的生成构象集合的方法存在效率低下或缺乏通用性的问题,无法在训练系统之外发挥作用。 分子动力学 (MD) 模拟是当前探索蛋白质运动的标准,但计算成本高昂,且受短时间步长要求的限制,因此难以捕捉较长时间尺度上发生的更广泛蛋白质构象变化。

图片

编辑 | 白菜叶

蛋白质结构的动态变化对于理解其功能和开发靶向药物治疗至关重要,尤其是对于隐蔽的结合位点。然而,现有的生成构象集合的方法存在效率低下或缺乏通用性的问题,无法在训练系统之外发挥作用。

分子动力学 (MD) 模拟是当前探索蛋白质运动的标准,但计算成本高昂,且受短时间步长要求的限制,因此难以捕捉较长时间尺度上发生的更广泛蛋白质构象变化。

Prescient Design 和 Genentech 的研究人员推出了 JAMUN(walk-Jump Accelerated Molecular ensembles with Universal Noise),这是一种新颖的机器学习模型,旨在通过实现对蛋白质构象集合的有效采样来克服这些挑战。

该研究以「JAMUN:Transferable Molecular Conformational Ensemble Generation with Walk-Jump Sampling」为题,于 2024 年 10 月 18 日发布在 arXiv 预印平台。

图片

JAMUN 将 Walk-Jump Sampling(WJS)扩展到 3D 点云,代表蛋白质原子坐标。通过利用 SE(3) 等变去噪网络,JAMUN 可以以比传统 MD 方法或当前基于 ML 的方法高得多的速度对任意蛋白质的玻尔兹曼分布进行采样。

JAMUN 还表现出了显著的转移到新系统的能力,这意味着它甚至可以为不属于其训练数据集的蛋白质结构生成可靠的构象集合。

所提出的方法基于「Walk-Jump Sampling」的概念,即将噪声添加到干净的数据中,然后训练神经网络对其进行去噪,从而实现平稳的采样过程。

JAMUN 在「Walk」阶段采用朗之万动力学,这已经是分子动力学 MD 模拟中的标准方法。

然后,「Jump」步骤会投射回原始数据分布,从而将过程与每次重新开始分离,而这通常是扩散模型所为。通过分离 Walk 和 Jump 步骤,JAMUN 可以平滑数据分布,足以解决采样困难,同时保留 MD 数据固有的物理先验。

图片

图示:Walk-Jump Sampling 概述。(来源:论文)

JAMUN 是在两种氨基酸肽的分子动力学模拟数据集上进行训练的,并成功推广到未见过的肽。结果表明,JAMUN 可以比标准 MD 模拟更快地对小肽的构象集合进行采样。

例如,JAMUN 在一小时内计算生成了具有挑战性的封端肽的构象状态,而传统的 MD 方法需要更长的时间来覆盖类似的分布。

JAMUN 还与可转移玻尔兹曼生成器 (TBG) 模型进行了比较,展示了显著的加速和相当的准确性,尽管它仅限于玻尔兹曼模拟而不是精确采样。

JAMUN 提供了一种强大的新方法来生成蛋白质的构象集合,平衡了效率和物理精度。它能够以比 MD 快得多的速度生成集合,同时保持可靠的采样,使其成为蛋白质结构预测和药物发现应用的有前途的工具。

未来的工作将侧重于将 JAMUN 扩展到更大的蛋白质,并改进去噪网络以实现更快的采样。

通过利用 Walk-Jump 采样,JAMUN 朝着可推广、可转移的蛋白质构象集合生成解决方案迈出了重要一步,这对于生物学理解和药物创新都至关重要。

论文链接:https://arxiv.org/abs/2410.14621

相关内容:https://www.marktechpost.com/2024/10/21/jamun-a-walk-jump-sampling-model-for-generating-ensembles-of-molecular-conformations/

相关资讯

Science子刊,斯坦福AI方法表示蛋白互作节点,增强功能识别与PPI推理

编辑 | 白菜叶生物网络通过详细描绘基因、蛋白质及其他细胞成分之间的复杂相互作用,为建模生物系统提供了重要工具。 这些网络将实体表示为节点,将其相互作用(从物理连接到功能关联)表示为边,从而为解析生物系统和过程的复杂性奠定了基础。 例如,在蛋白质-蛋白质相互作用(PPI)网络中,复杂的连接关系包含了理解细胞过程和疾病机制的关键信息。

压缩率达10的48次方,实现蛋白序列空间极端压缩,清华EvoAI登Nature子刊

编辑 | 萝卜皮设计功能更佳的蛋白质需要深入了解序列和功能之间的关系,这是一个难以探索的广阔空间。 通过识别功能上重要的特征来有效压缩这一空间的能力极其宝贵。 清华大学的研究团队建立了一种称为 EvoScan 的方法,用于全面分割和扫描高适应度序列空间,以获得能够捕捉其基本特征(尤其是在高维度中)的锚点。

GPT-4驱动的机器人化学家登Nature,自主设计反应并执行复杂实验

编辑 | X基于 Transformer 的大语言模型(LLM)在自然语言处理、生物、化学和计算机编程等各个领域取得了重大进展。但对于在实验室工作的研究人员或那些不熟悉计算机代码的人来说,人工智能方法并不那么容易理解。近日,卡内基梅隆大学的研究团队找到了如何让人工智能系统自学化学的方法。提出了一种基于 GPT-4 的智能 Agent(以下简称 Coscientist),用一个简单的语言提示就可以执行整个实验过程。能够自主设计、规划和执行复杂的科学实验。Coscientist 可以设计、编码和执行多种反应,在湿实验中