编辑 | 萝卜皮
有的蛋白质在基态布局中短缺 Pocket,因此被认为是「不可成药的蛋白质」。通过靶向埋没 Pocket,可以在「不可成药的蛋白质」中寻找新的机会,来扩大药物发明的范围。
然而,辨认埋没 Pocket 是一项劳动密集型且十分缓慢的工作。能否正确快速地猜测布局,以及在何处可能产生埋没 Pocket 的能力,可以加快寻找埋没 Pocket 的速度。
在这里,华盛顿大学和微软团队的研讨职员介绍了 PocketMiner,这是一种图形神经网络,经过训练可以猜测份子动力学放荡中 Pocket 可能关上的位置。将 PocketMiner 应用于来自 39 个经过实行确认的埋没 Pocket 的新策划数据集中的单个布局,表明它正确辨认埋没 Pocket(ROC-AUC: 0.87)比现有方法快 1,000 倍以上。
该团队将 PocketMiner 应用于整个人类蛋白质组,并展示了猜测的 Pocket 在相关放荡中关上;这表明超过一半的蛋白质被认为短缺基于可用布局的 Pocket,并可能包含埋没的 Pocket,极大地扩展了潜在的药物蛋白质组。
该研讨以「Predicting locations of cryptic pockets from single protein structures using the PocketMiner graph neural network」为题,于 2023 年 3 月 1 日发布在《Nature Communications》。
发明埋没 Pocket 对药物开发将带来重要机会
蛋白质布局波动通常会导致埋没 Pocket 的产生,这些埋没 Pocket 在实行确定的布局中明显出现的 Pocket 之外呈现出药物位点。从药物开发的角度来看,瞄准这些埋没的 Pocket 提供了许多令人信服的机会。例如,在天然折叠布局中短缺明显 Pocket 的蛋白质可能看起来不可药用,但可以通过埋没的 Pocket 作为目标。
此外,虽然靶向正构位点的份子是特异性抑制剂,但靶向埋没 Pocket 的份子可以通过抑制或激活来调节蛋白质功能。虽然正构位点在需要联合相同配体的蛋白质中通常高度保守,但埋没位点可能不太保守。这开启了开发拥有更高特异性的份子的可能性。
发明埋没 Pocket 拥有挑战性
虽然埋没的 Pocket 是诱人的药物目标,但有意找到并瞄准它们仍然拥有挑战性。大多数已知的埋没 Pocket 都是通过筛选抑制剂和解决命中布局而偶然发明的。虽然这个过程揭示了埋没Pocket,但它并没有专门选择针对埋没 Pocket 的化合物,而且既昂贵又劳动密集。
另外,通过这种方法发明埋没 Pocket 的情况很少见,因为短缺对埋没 Pocket 布局的先验知识,无法设计针对该 Pocket 的小份子库。份子动力学放荡是辨认埋没 Pocket 的另一种方法。放荡提供了蛋白质在溶液中采用的原子级详细布局集合,通常会揭示可用作药物设计模板的埋没 Pocket。然而,份子动力学放荡的计算成本很高,因此无法筛选大量目标以寻找埋没 Pocket。
因为辨认埋没 Pocket 是资源密集型的工作,所以快速指示蛋白质是否可能有任何埋没Pocket的筛选方法,将非常有价值。在 SARS-CoV-2 大流行期间,研讨职员迅速解决了不同病毒蛋白的众多实行布局。同样,蛋白质布局猜测的最新进展使许多蛋白质布局可用于基于布局的药物设计。在其基态实行布局中拥有 Pocket 的蛋白质可以优先作为药物靶标。然而,在蛋白质短缺基态 Pocket 或特定调节剂的设计拥有挑战性的情况下,旨在猜测哪些蛋白质拥有埋没 Pocket 的算法也可用于确定哪些蛋白质的优先级。
监督机器学习算法的一个杰出示例,但仍有局限
CryptoSite 是监督机器学习算法的一个杰出示例,它以蛋白质布局作为输入并猜测配体联合的埋没 Pocket。简而言之,CryptoSite 经过训练可以辨认氨基酸残基,这些氨基酸残基将从与配体联合不相容的方向,转变为已根据来自蛋白质数据库(PDB)的一组 84 个已确认的埋没 Pocket 验证适应配体的方向。即使应用这个相对较小的数据集,CryptoSite 也能在分类氨基酸残基是否会参与埋没 Pocket 方面实现良好的正确度(ROC-AUC = 0.83)。
实现这种性能需要大约 1 天的时间来运行单个蛋白质,因为 CryptoSite 的输入特征之一是放荡数据,它需要为每个猜测即时生成这些数据。该算法在不应用放荡数据作为特征的情况下会降低性能(ROC-AUC = 0.74)。一种能够达到相同或更高正确度的更快算法,对于根据潜在药物靶标拥有可用埋没 Pocket 的可能性对它们进行优先排序拥有巨大的价值。
研讨职员假设经过训练以猜测在固定放荡时间内产生 Pocket 的概率的算法,将正确辨认无配体实行布局中的埋没 Pocket。具体来说,研讨职员应用放荡来评估蛋白质布局中的每个残基是否可以重新排列其方向,以参与埋没 Pocket 作为其热波动的一部分。
CryptoSite 依赖于已知配体联合在埋没位点的少量示例,所提出的训练方案不需要配体联合在埋没 Pocket中的示例。相反,模型可以在包含 Pocket 关上事件示例的布局集合(例如,来自份子放荡)上进行训练。所提出的训练方案的一个好处是可以获得至少一个数量级的更多训练示例来训练模型(例如,可以从放荡中获得数千个埋没的Pocket关上事件)。
PocketMiner 发明埋没 Pocket 的新方法
在最新的研讨中,华盛顿大学和微软团队的研讨职员训练了一个图形神经网络,来猜测 Pocket 可能在份子动力学放荡中关上的位置,然后测试它是否可以从单个实行衍生布局猜测埋没 Pocket 的位置。
图示:PocketMiner 应用图形神经网络来猜测埋没 Pocket 的产生。(来源:论文)
研讨职员假设可以通过在包含 Pocket 关上事件的放荡数据,而不是已知拥有配体联合埋没位点的蛋白质上训练机器学习算法,来开发更快、更正确的算法。
为了验证这一假设,研讨职员训练 PocketMiner 猜测哪些残基将在 35 种蛋白质的 2,400 次放荡中产生 Pocket。与 CryptoSite 相比,这种方法使一个模型拥有了更先进的性能(ROC-AUC 0.87 vs.0.85)和速度(>1000倍加速)。
这里的工作加强了应用份子动力学放荡来辨认埋没 Pocket 的案例。在这里,研讨职员系统地评估了通过放荡在大量已知的埋没 Pocket 中辨认埋没 Pocket 的程度。令人惊讶的是,研讨职员发明大多数已知的配体联合埋没 Pocket 只需 400ns 的聚合、无偏放荡即可辨认。
图示:封闭的Apo布局开始,在放荡中迅速关上了埋没 Pocket。(来源:论文)
值得注意的是,放荡正确地辨认了已知的配体联合埋没 Pocket,没有大量误报。PocketMiner 可用于辨认蛋白质是否拥有埋没 Pocket,然后可以应用放荡对 Pocket 关上时的布局配置进行采样,从而实现基于布局的药物设计。鉴于这通常只需要适度的 ~400ns 采样,这个过程应该可供各种研讨职员应用。
为了展示 PocketMiner 的实用性,该团队将其应用于整个人类基因组,以辨认人类蛋白质中新的埋没Pocket。研讨职员发明超过一半的被认为短缺Pocket的蛋白质预计会有一个埋没的Pocket,可以使它们成为药物。因此,折叠布局中没有明显Pocket的蛋白质不应被忽视作为药物靶点。
至此,论文里研讨职员重点介绍了 WNT2,它是 Jak/Stat 信号通路中的一种蛋白质,在肿瘤发生中起着至关重要的作用,其折叠布局中没有明显的 Pocket,预计会产生一个埋没的 Pocket。
此外,PocketMiner 猜测了 PIM2 中的一个埋没 Pocket,PIM2 是一种与多种癌症有关的激酶。在这两种情况下,研讨职员应用份子动力学放荡来验证这些埋没 Pocket 的产生。
图示:在人类蛋白质组上应用 PocketMiner 会发明数千个埋没 Pocket。(来源:论文)
这里的结果表明 PocketMiner 可以辨认埋没 Pocket 产生的位置,并且放荡可以对开放布局状态进行采样,研讨职员提出了一个系统地瞄准埋没 Pocket 的管道:
首先,给定一组与疾病有关的蛋白质(例如 SARS-Cov-2 蛋白质组),首先将 PocketMiner 应用于这些蛋白质以了解哪些目标可能产生埋没的 Pocket。
然后,对那些拥有高 PocketMiner 分数的蛋白质运行 MD 放荡,以对开放布局状态进行采样。人们甚至可以应用自适应采样来优先采样猜测 Pocket 位置的开放事件。这些状态可用作基于布局的药物设计(例如,份子对接)的模板,以找到联合在埋没 Pocket 处的小份子。
最后,这些命中可以通过实行确定的布局或联合分析进行验证。
图示:Pocketminer猜测WNT2中的一个埋没 Pocket,可以在放荡中关上。(来源:论文)
因此,PocketMiner 有潜力成为一种有价值的药物发明工具。
论文链接:https://www.nature.com/articles/s41467-023-36699-3