成功率超越RoseTTAFold系列,用序列信息直接预计卵白质-配体复合物构造

编辑 | 萝卜皮卵白质-配体连接是药物发现和开发中一种成熟的工具,用于缩小实验尝试的潜在治疗范围。然而,高质量的卵白质构造是必需的,而且卵白质通常被视为完全或部分刚性的。在这里,柏林自由大学(Freie Universität Berlin)的研究人员开发了一个人工智能系统,可以直接从序列信息预计卵白质-配体复合物的完全柔性全原子构造。虽然经典连接格式仍然更胜一筹,但这也取决于目标卵白质的晶体构造。除了预计灵活的全原子构造外,预计置信度指标 (plDDT) 还可用于选择正确的预计,以及区分强连系剂和弱连系剂。该研究

成功率超越RoseTTAFold系列,用序列信息直接预计卵白质-配体复合物构造

编辑 | 萝卜皮

卵白质-配体连接是药物发现和开发中一种成熟的工具,用于缩小实验尝试的潜在治疗范围。然而,高质量的卵白质构造是必需的,而且卵白质通常被视为完全或部分刚性的。

在这里,柏林自由大学(Freie Universität Berlin)的研究人员开发了一个人工智能系统,可以直接从序列信息预计卵白质-配体复合物的完全柔性全原子构造。

虽然经典连接格式仍然更胜一筹,但这也取决于目标卵白质的晶体构造。除了预计灵活的全原子构造外,预计置信度指标 (plDDT) 还可用于选择正确的预计,以及区分强连系剂和弱连系剂。

该研究以「Structure prediction of protein-ligand complexes from sequence information with Umol」为题,于 2024 年 5 月 28 日发布在《Nature Communications》。

成功率超越RoseTTAFold系列,用序列信息直接预计卵白质-配体复合物构造

小份子与卵白质靶标的连接是评估新药及重新定位已知药物的重要问题,但现有连接格式存在局限:需要高质量的卵白质构造;难以确定正确的连接姿态;多鉴于连系态(饱和)构造评估,限制了对新配体的探索。

机器进修虽然已应用于这一领域,但在针对已知靶标区域的表现上,仍未超越鉴于打分函数的经典格式。并且,预计的卵白构造往往不适宜直接用于配体连接。

此外,评估集中若构造鉴于发布时间而非相似性划分,会引入偏差,尤其是面对训练中未见的受体构造时功能减半。

卵白质灵活性对于达到连系状态和成功连接至关重要,RoseTTAFold All-Atom 虽能在预计卵白质时连系配体,其在 PoseBusters 尝试集上的成功率也只有 42%,且对未见过的卵白质表现未知,标明卵白质-配体复合物构造预计的挑战尚未完全解决。

柏林自由大学的团队开发了一种 AI 格式,通过扩展 AlphaFold2 中的 EvoFormer,可以根据序列信息预计卵白质-配体复合物的构造。该网络与 RFAA 类似,不同之处在于不包括 3D 轨迹,利用模板构造或额外的晶体学配体数据作为输入或在训练期间利用。

成功率超越RoseTTAFold系列,用序列信息直接预计卵白质-配体复合物构造

图示:Umol 概述。(来历:论文)

从卵白质序列、可选卵白质靶位(口袋)和配体 SMILES 开始,创建了多序列比对 (MSA) 和键矩阵。由此,在网络内生成特征并生成 3D 构造。由于无需任何构造信息即可生成最终的卵白质-配体复合物构造,因此对卵白质或配体的灵活性没有任何限制。

与最接近的 RoseTTAFold All-Atom 和 NeuralPlexer1 相比,Umol 在 PoseBusters 尝试集上包含口袋信息时获得了更高的成功率(SR,配体 RMSD ≤ 2 Å),分别为 45%、42%、24%,使其成为卵白质-配体构造预计中表现最好的格式。

成功率超越RoseTTAFold系列,用序列信息直接预计卵白质-配体复合物构造

图示:预计精度。(来历:论文)

当从 Umol 中删除口袋信息并从 RFAA 中删除模板信息时,SR 分别下降到 18% 和 8%。当利用带有 AF 预计的 DiffDock 时,正确率为 21%,但取决于高度正确的界面预计(口袋 RMSD < 1 Å)。除 RFAA 外,所有格式在与训练集相似的构造上均具有更高的功能,这标明 RFAA 在训练或验证过程中可能存在数据泄露。

许多略高于 2 Å 成功阈值的配体姿势可能相当,这标明可能需要更灵活的评分系统。Umol 在 2.35 Å 阈值下的成功率超过了 AutoDock Vina。在未利用天然卵白质构造进行评分的情况下,即使是微小的对齐错误也会成为问题。

共折叠卵白质-配体复合物具有加速药物重新定位的潜力。特别是,研究人员发现配体的预计 lDDT (plDDT) 可用于选择正确的连接姿势,而卵白质口袋的 pIDDT 适用于选择正确的界面。

成功率超越RoseTTAFold系列,用序列信息直接预计卵白质-配体复合物构造

图示:置信度指标和正确性。(来历:论文)

配体 plDDT 也分离了高亲和力配体和低亲和力配体,这标明 Umol 和 Umol-pocket 不确定的一些预计可能是弱连系剂。这进一步证明了 Umol 的能力,并强调似乎已经了解了卵白质-配体相互作用的重要方面。

成功率超越RoseTTAFold系列,用序列信息直接预计卵白质-配体复合物构造

图示:BindingDB 预计。(来历:论文)

尽管没有口袋信息的正确率为 18%,但网络仍可以在一定程度上区分强连系剂和弱连系剂。这对于注释未知复合物特别有用,该团队以非常高的置信度(配体 plDDT>85)呈现了 336 种卵白质-配体构造。需要注意的是,虽然这些构造看似合理且其 L-plDDT 得分很高,但仍需通过实验验证。

成功率超越RoseTTAFold系列,用序列信息直接预计卵白质-配体复合物构造

图示:利用 Umol-pocket 分析 PoseBusters 尝试集 (n=428) 上的预计的不同特征与配体 RMSD (LRMSD) 之间的关系。(来历:论文)

研究人员没有发现模型的预计功能与「同卵白质或配体相关的不同特征」之间存在明确的关系。

成功率超越RoseTTAFold系列,用序列信息直接预计卵白质-配体复合物构造

图示:最困难的 5 个构造。(来历:论文)

然而,在其他格式难以预计的情况下,Umol-pocket 在 5 种情况下有 3 种是正确的。通过反转训练好的网络,可以设计新的配体连系卵白或卵白连系配体。另一种选择是利用迁移进修来创建用于相同目的的生成扩散模型。在这种情况下,可以最大化配体或卵白 plDDT 以尝试创建高亲和力连系物。

PDBbind 的当前版本包含 2019 年从 PDB 处理的数据。从那时起,已经提交了更多卵白质-配体复合物,这标明可能可以实现更高的精度。

然而,目前尚不清楚需要什么样的精度才能获得有意义的卵白质-配体连接结果。卵白质构造预计的高精度在涉及其他份子(如小份子或 RNA)的任务中无法实现。

如果没有卵白质的共同进化信息,构造预计的正确性会迅速下降。由于小份子或 RNA 没有类似的信息来历,因此人们只能依赖原子表征。

表:PoseBuster 基准集上的成功率(配体 RMSD≤2Å 的百分比)除以 PDBBind 2020 版本的序列同一性 (seqid)。(来历:论文)

成功率超越RoseTTAFold系列,用序列信息直接预计卵白质-配体复合物构造

研究人员认为口袋信息非常有效,如果没有口袋信息,深度进修格式似乎容易过度拟合。这一发现进一步证实了以下观察结果:尽管 PoseBusters 尝试集中的许多份子在训练数据集中包含高度相似的类似物,但这种相似性与模型成功率无关。

成功率超越RoseTTAFold系列,用序列信息直接预计卵白质-配体复合物构造

图示:一些尝试。(来历:论文)

对于鉴于构造的连接格式(如 Vina 或 Gold),未观察到相同程度的过度拟合。这是意料之中的,因为它们鉴于原子评分函数,因此不会在相同程度上依赖卵白质同源性。

深度进修格式在训练集上具有明显更高的功能,这标明卵白质同源性在卵白质-配体连接中起着重要作用。RFAA 在尝试集上的功能高于训练集,这标明训练集和尝试集之间可能存在数据泄漏。

总之,要完全掌握卵白质-配体相互作用的复杂性还有很长的路要走,但利用深度进修对整个复合物的构造进行预计可能会让科学家更接近解决方案。

Umol:https://github.com/patrickbryant1/Umol

论文链接:https://www.nature.com/articles/s41467-024-48837-6

给TA打赏
共{{data.count}}人
人已打赏
应用

AI在用 | 鳌拜和韦小宝秀恩爱、奥特曼和黄仁勋打起来,Luma翻车离谱到可爱

2024-6-18 18:28:00

应用

「千脑规划」启动,模仿人类大脑皮层,开发全新AI,盖茨资助

2024-6-18 18:30:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索