超越AF2?Iambic、英伟达、加州理工学院开发多标准深度生成模型,进行状态特异性蛋白质-配体复合物构造展望

编辑 | 萝卜皮由蛋白质和小份子配体形成的分离复合物无处不在,对生命至关重要。虽然最近科学家在蛋白质构造展望方面取得了进展,但现有算法无法系统地展望分离配体构造及其对蛋白质折叠的调节作用。为了解决这种差异,AI 制药公司 Iambic Therapeutics、英伟达(Nvidia Corporation)以及加州理工学院(California Institute of Technology)的研究人员提出了 NeuralPLexer,这是一种盘算方式,可以仅运用蛋白质序列和配体份子图输入直接展望蛋白质-配体复合物

超越AF2?Iambic、英伟达、加州理工学院开发多标准深度生成模型,进行状态特异性蛋白质-配体复合物构造展望

编辑 | 萝卜皮

由蛋白质和小份子配体形成的分离复合物无处不在,对生命至关重要。虽然最近科学家在蛋白质构造展望方面取得了进展,但现有算法无法系统地展望分离配体构造及其对蛋白质折叠的调节作用。

为了解决这种差异,AI 制药公司 Iambic Therapeutics、英伟达(Nvidia Corporation)以及加州理工学院(California Institute of Technology)的研究人员提出了 NeuralPLexer,这是一种盘算方式,可以仅运用蛋白质序列和配体份子图输入直接展望蛋白质-配体复合物构造。

NeuralPLexer 采用深度生成模型以原子分辨率对分离复合物的三维构造及其构象变化进行采样。该模型鉴于分散历程,该历程分离了基本的生物物理自在和多标准多少深度学习系统,以分层方式迭代采样残留级接触图和所有重原子坐标。

NeuralPLexer 展望与酶工程和药物发现中重要靶点的构造测定尝试相一致,其在蛋白质组规模上加速功能蛋白和小份子安排方面拥有巨大潜力。

该研究以「State-specific protein–ligand complex structure prediction with a multiscale deep generative model」为题,于 2024 年 2 月 12 日发布在《Nature Machine Intelligence》。

超越AF2?Iambic、英伟达、加州理工学院开发多标准深度生成模型,进行状态特异性蛋白质-配体复合物构造展望

静态蛋白质构造展望不足以支持药物安排

深度学习在从一维氨基酸序列展望蛋白质构造方面取得了巨大进步。最先进的蛋白质构造展望搜集,例如 AlphaFold2 (AF2),采用鉴于蛋白质构造的进化、物理和多少自在的展望管线。具体来说,从多重序列比对(MSA)或蛋白质语言模型(PLM)和专门的神经搜集中提取的进化自在,与鉴于序列的信息和多少表示系统地分离,从而实现端到端的三维(3D)构造展望 。

虽然在展望蛋白质静态构造方面取得了巨大成功,但蛋白质折叠问题的这种单一构造公式提供了有关蛋白质功能的不完整信息,并且还被发现不足以用于鉴于构造的药物安排。

生成式深度学习是一种替代范式

然而,与受体构象的实质性变化相分离的蛋白质-配体复合物的盘算模型,受到模拟缓慢蛋白质状态转变的高昂成本的阻碍。生成式深度学习的最新发展提供了一种替代范式,并且在理解庞大视觉和语言领域方面取得了实质性进展。

生成建模的两个值得注意的策略包括(1)自回归模型,在序列数据(例如自然语言和基因组学)的 Transformer 搜集中广泛采用,鉴于顺序历程;(2) 鉴于分散的生成模型,利用随机历程通过从先验分布中采样并运用神经搜集逐步逆转噪声历程来生成数据。

科学家已经证明,深度生成模型能够产生具有经过尝试验证的功能的从头安排的蛋白质,包括用于蛋白质序列安排的语言模型和用于蛋白质主链生成的分散模型。分散模型可以有效地模拟蛋白质骨架之外的份子构造,特别是在份子对接和鉴于构造的药物安排方面。

然而,目前为止,还没有团队开发出能够以原子分辨率直接展望分离庞大构造且精度可与构造测定尝试相媲美的生成模型。

深度生成模型展望蛋白质-配体庞大构造

在最新的研究中,Iambic、英伟达、加州理工学院团队介绍了 NeuralPLexer,这是一种盘算系统,它运用由生物物理归纳偏差提供的深度生成模型来展望蛋白质-配体庞大构造。该方式可以以从 PLM 获得的辅助特征和从尝试解析的同源物或盘算模型检索的模板蛋白质构造为条件,直接生成给定蛋白质序列和配体份子图输入的分离复合物的构造集合。

超越AF2?Iambic、英伟达、加州理工学院开发多标准深度生成模型,进行状态特异性蛋白质-配体复合物构造展望

图示:NeuralPLexer 能够准确展望蛋白质-配体复合物的构造和构象变化。(来源:论文)

展望管线和底层神经搜集架构都旨在反映生物份子复合物的多标准层次构造。具体而言,NeuralPLexer 包括:

(1)鉴于图的搜集,将单个小份子和氨基酸图的原子级化学和多少特征编码为张量表示,通过受物理启发的搜集架构实现,该搜集架构经过百万级份子构象和生物活性数据库的训练;

(2)接触展望模块(CPM),在最近的视觉语言模型和折叠展望搜集的推动下,运用鉴于注意力的搜集生成残留标准的份子间距离分布、粗粒度接触图和相关的配对表示;

(3)等变构造去噪模块 (ESDM),用于生成以原子标准和残留标准搜集的输出为条件的分离庞大原子构造,运用等变的构造化去噪分散历程,并保留蛋白质和配体份子的手性自在。

在对蛋白质-配体盲对接进行评估时,与 PDBBind2020 基准上性能最佳的现有方式相比,NeuralPLexer 将展望成功率提高了高达 78%。在针对挑战性目标的配体分离位点安排中,NeuralPLexer 仅运用盘算生成的截短支架即可有效恢复高达 45% 的分离位点构造。

与现有的鉴于物理的方式相比,这代表了成功率的质的提高。此外,NeuralPLexer 在选择性展望受诱导拟合分离或构象选择影响的蛋白质构造方面比现有方式表现出系统优势;在两个具有大构造可塑性的配体分离蛋白基准数据集上,NeuralPLexer 优于最先进的蛋白质构造展望算法 AF2,最高的模板建模得分 (TM-score)(平均 0.906)以及配体分离后发生重大构象变化的构造域的准确性提高了 11-13%。

NeuralPLexer 模拟配体分离和蛋白质构造变化的多功能能力可以快速表征构象景观,从而促进更好地理解控制蛋白质功能的份子机制,从而有助于在蛋白质组规模上识别治疗干预和蛋白质工程的非常规靶点。

结语

作为一种数据驱动的方式,NeuralPLexer 具有通用性,并且可以通过整合更好的尝试和生物信息数据来持续改进。来自更广泛社区的训练和基准数据集的管理的改进,可能能够对没有尝试确定的同源物蛋白质家族进行更系统的分析,并将该方式扩展到更具挑战性的系统,例如翻译后修饰和多态大型异聚蛋白质复合物。

该研究为探索这些方向提供了通用的盘算框架,为快速准确的蛋白质-配体复合物构造展望铺平了道路,从而促进构造生物学、药物发现和蛋白质工程领域的进步。

论文链接:https://www.nature.com/articles/s42256-024-00792-z 

给TA打赏
共{{data.count}}人
人已打赏
理论

GPDRP:鉴于图 Transformer 和基因通路的药物反馈猜测多模态框架

2024-2-19 13:55:00

理论

如果 LLM Agent 成为了迷信家:耶鲁、NIH、Mila、上交等学者共同呼吁危险防范的重要性

2024-2-20 11:54:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索