编辑 | 萝卜皮
有的蛋白质在基态结构中缺乏 Pocket,因此被认为是「不可成药的蛋白质」。通过靶向隐藏 Pocket,可以在「不可成药的蛋白质」中寻找新的机会,来扩大药物发现的范围。
然而,识别隐藏 Pocket 是一项劳动密集型且十分缓慢的工作。能否准确快速地预测结构,以及在何处可能形成隐藏 Pocket 的能力,可以加快寻找隐藏 Pocket 的速度。
在这里,华盛顿大学和微软团队的研究人员介绍了 PocketMiner,这是一种图形神经网络,经过训练可以预测分子动力学模拟中 Pocket 可能打开的位置。将 PocketMiner 应用于来自 39 个经过实验确认的隐藏 Pocket 的新策划数据集中的单个结构,表明它准确识别隐藏 Pocket(ROC-AUC: 0.87)比现有方法快 1,000 倍以上。
该团队将 PocketMiner 应用于整个人类蛋白质组,并展示了预测的 Pocket 在相关模拟中打开;这表明超过一半的蛋白质被认为缺乏基于可用结构的 Pocket,并可能包含隐藏的 Pocket,极大地扩展了潜在的药物蛋白质组。
该研究以「Predicting locations of cryptic pockets from single protein structures using the PocketMiner graph neural network」为题,于 2023 年 3 月 1 日发布在《Nature Communications》。
发现隐藏 Pocket 对药物开发将带来重要机会
蛋白质结构波动通常会导致隐藏 Pocket 的形成,这些隐藏 Pocket 在实验确定的结构中明显出现的 Pocket 之外呈现出药物位点。从药物开发的角度来看,瞄准这些隐藏的 Pocket 提供了许多令人信服的机会。例如,在天然折叠结构中缺乏明显 Pocket 的蛋白质可能看起来不可药用,但可以通过隐藏的 Pocket 作为目标。
此外,虽然靶向正构位点的分子是特异性抑制剂,但靶向隐藏 Pocket 的分子可以通过抑制或激活来调节蛋白质功能。虽然正构位点在需要结合相同配体的蛋白质中通常高度保守,但隐藏位点可能不太保守。这开启了开发具有更高特异性的分子的可能性。
发现隐藏 Pocket 具有挑战性
虽然隐藏的 Pocket 是诱人的药物目标,但有意找到并瞄准它们仍然具有挑战性。大多数已知的隐藏 Pocket 都是通过筛选抑制剂和解决命中结构而偶然发现的。虽然这个过程揭示了隐藏Pocket,但它并没有专门选择针对隐藏 Pocket 的化合物,而且既昂贵又劳动密集。
另外,通过这种方法发现隐藏 Pocket 的情况很少见,因为缺乏对隐藏 Pocket 结构的先验知识,无法设计针对该 Pocket 的小分子库。分子动力学模拟是识别隐藏 Pocket 的另一种方法。模拟提供了蛋白质在溶液中采用的原子级详细结构集合,通常会揭示可用作药物设计模板的隐藏 Pocket。然而,分子动力学模拟的计算成本很高,因此无法筛选大量目标以寻找隐藏 Pocket。
因为识别隐藏 Pocket 是资源密集型的工作,所以快速指示蛋白质是否可能有任何隐藏Pocket的筛选方法,将非常有价值。在 SARS-CoV-2 大流行期间,研究人员迅速解决了不同病毒蛋白的众多实验结构。同样,蛋白质结构预测的最新进展使许多蛋白质结构可用于基于结构的药物设计。在其基态实验结构中具有 Pocket 的蛋白质可以优先作为药物靶标。然而,在蛋白质缺乏基态 Pocket 或特定调节剂的设计具有挑战性的情况下,旨在预测哪些蛋白质具有隐藏 Pocket 的算法也可用于确定哪些蛋白质的优先级。
监督机器学习算法的一个杰出示例,但仍有局限
CryptoSite 是监督机器学习算法的一个杰出示例,它以蛋白质结构作为输入并预测配体结合的隐藏 Pocket。简而言之,CryptoSite 经过训练可以识别氨基酸残基,这些氨基酸残基将从与配体结合不相容的方向,转变为已根据来自蛋白质数据库(PDB)的一组 84 个已确认的隐藏 Pocket 验证适应配体的方向。即使使用这个相对较小的数据集,CryptoSite 也能在分类氨基酸残基是否会参与隐藏 Pocket 方面实现良好的准确度(ROC-AUC = 0.83)。
实现这种性能需要大约 1 天的时间来运行单个蛋白质,因为 CryptoSite 的输入特征之一是模拟数据,它需要为每个预测即时生成这些数据。该算法在不使用模拟数据作为特征的情况下会降低性能(ROC-AUC = 0.74)。一种能够达到相同或更高准确度的更快算法,对于根据潜在药物靶标拥有可用隐藏 Pocket 的可能性对它们进行优先排序具有巨大的价值。
研究人员假设经过训练以预测在固定模拟时间内形成 Pocket 的概率的算法,将准确识别无配体实验结构中的隐藏 Pocket。具体来说,研究人员使用模拟来评估蛋白质结构中的每个残基是否可以重新排列其方向,以参与隐藏 Pocket 作为其热波动的一部分。
CryptoSite 依赖于已知配体结合在隐藏位点的少量示例,所提出的训练方案不需要配体结合在隐藏 Pocket中的示例。相反,模型可以在包含 Pocket 打开事件示例的结构集合(例如,来自分子模拟)上进行训练。所提出的训练方案的一个好处是可以获得至少一个数量级的更多训练示例来训练模型(例如,可以从模拟中获得数千个隐藏的Pocket打开事件)。
PocketMiner 发现隐藏 Pocket 的新方法
在最新的研究中,华盛顿大学和微软团队的研究人员训练了一个图形神经网络,来预测 Pocket 可能在分子动力学模拟中打开的位置,然后测试它是否可以从单个实验衍生结构预测隐藏 Pocket 的位置。
图示:PocketMiner 使用图形神经网络来预测隐藏 Pocket 的形成。(来源:论文)
研究人员假设可以通过在包含 Pocket 打开事件的模拟数据,而不是已知具有配体结合隐藏位点的蛋白质上训练机器学习算法,来开发更快、更准确的算法。
为了验证这一假设,研究人员训练 PocketMiner 预测哪些残基将在 35 种蛋白质的 2,400 次模拟中形成 Pocket。与 CryptoSite 相比,这种方法使一个模型拥有了更先进的性能(ROC-AUC 0.87 vs.0.85)和速度(>1000倍加速)。
这里的工作加强了使用分子动力学模拟来识别隐藏 Pocket 的案例。在这里,研究人员系统地评估了通过模拟在大量已知的隐藏 Pocket 中识别隐藏 Pocket 的程度。令人惊讶的是,研究人员发现大多数已知的配体结合隐藏 Pocket 只需 400ns 的聚合、无偏模拟即可识别。
图示:封闭的Apo结构开始,在模拟中迅速打开了隐藏 Pocket。(来源:论文)
值得注意的是,模拟准确地识别了已知的配体结合隐藏 Pocket,没有大量误报。PocketMiner 可用于识别蛋白质是否具有隐藏 Pocket,然后可以使用模拟对 Pocket 打开时的结构配置进行采样,从而实现基于结构的药物设计。鉴于这通常只需要适度的 ~400ns 采样,这个过程应该可供各种研究人员使用。
为了展示 PocketMiner 的实用性,该团队将其应用于整个人类基因组,以识别人类蛋白质中新的隐藏Pocket。研究人员发现超过一半的被认为缺乏Pocket的蛋白质预计会有一个隐藏的Pocket,可以使它们成为药物。因此,折叠结构中没有明显Pocket的蛋白质不应被忽视作为药物靶点。
至此,论文里研究人员重点介绍了 WNT2,它是 Jak/Stat 信号通路中的一种蛋白质,在肿瘤发生中起着至关重要的作用,其折叠结构中没有明显的 Pocket,预计会形成一个隐藏的 Pocket。
此外,PocketMiner 预测了 PIM2 中的一个隐藏 Pocket,PIM2 是一种与多种癌症有关的激酶。在这两种情况下,研究人员使用分子动力学模拟来验证这些隐藏 Pocket 的形成。
图示:在人类蛋白质组上应用 PocketMiner 会发现数千个隐藏 Pocket。(来源:论文)
这里的结果表明 PocketMiner 可以识别隐藏 Pocket 形成的位置,并且模拟可以对开放结构状态进行采样,研究人员提出了一个系统地瞄准隐藏 Pocket 的管道:
首先,给定一组与疾病有关的蛋白质(例如 SARS-Cov-2 蛋白质组),首先将 PocketMiner 应用于这些蛋白质以了解哪些目标可能形成隐藏的 Pocket。
然后,对那些具有高 PocketMiner 分数的蛋白质运行 MD 模拟,以对开放结构状态进行采样。人们甚至可以使用自适应采样来优先采样预测 Pocket 位置的开放事件。这些状态可用作基于结构的药物设计(例如,分子对接)的模板,以找到结合在隐藏 Pocket 处的小分子。
最后,这些命中可以通过实验确定的结构或结合分析进行验证。
图示:Pocketminer预测WNT2中的一个隐藏 Pocket,可以在模拟中打开。(来源:论文)
因此,PocketMiner 有潜力成为一种有价值的药物发现工具。
论文链接:https://www.nature.com/articles/s41467-023-36699-3