编辑 | 紫罗
蛋白质、药物和其他生物份子之间的互相作用,在各种生物过程中发挥着至关重要的作用。了解这些互相作用对于破译生物学过程背后的份子机制和开发新的治疗策略至关重要。
当前的多标准计算格式,常常过于依赖于单一标准,而对其他标准的拟合不足,这可能与多标准进修的不平多标准衡性和固有的贪婪性有关。
为了缓解优化不平稳,中山大学和上海交通大学的钻研职员提出了一种基于变量盼望最大化的多标准示意进修框架 MUSE,它可以无效地整合多标准信息进行进修。该策略通过互相监视和迭代优化,无效融合原子构造和份子收集标准之间的多标准信息。
MUSE 不仅在份子互相作用(蛋白质-蛋白质、药物-蛋白质和药物-药物)任务方面优于当前最进步前辈的模型,而且在原子构造标准的蛋白质界面预计方面也优于当前最进步前辈的模型。更重要的是,多标准进修框架可扩展到其他标准的计算药物发现。
该钻研以「A variational expectation-maximization framework for balanced multi-scale learning of protein and drug interactions」为题,于 5 月 25 日发布在《Nature Communications》上。
论文链接:https://www.nature.com/articles/s41467-024-48801-4
生物份子间互相作用
蛋白质功能的特点是与蛋白质、药物和其他生物份子的互相作用。了解这些互相作用对于破译生物过程的份子机制和开发新的治疗策略至关重要。然而,与实验互相作用相关的需求和成本的大幅增长,需要计算工具来自动预计和理解生物份子之间的互相作用。
纯粹从构造预计这些互相作用是构造生物学中最重要的挑战之一。目前的计算格式大多基于份子收集或构造信息来预计互相作用,而没有将它们集成到统一的多标准框架中。
虽然一些多视图进修格式致力于融合多标准信息,进修多标准示意的直观格式是将份子图与交互收集结合起来并共同优化它们。然而,由于多标准进修的不平稳性和固有的贪婪性,这些模型通常集中依赖于单一标准。无法无效地行使所有标准相关的信息,并且泛化差。
此外,无效的多标准框架不仅需要捕获分别标准内的丰富信息,而且还需要很好地保留它们之间的潜在关系。
MUSE 用于进修蛋白质和药物多标准信息
在此,中山大学钻研团队提出了 MUSE,一种基于变量盼望最大化(Expectation Maximization)的多标准示意进修框架,它可以在多次迭代的交替过程中优化分别标准。与严重依赖单标准信息的现有格式相比,MUSE 通过互相监视和迭代优化,无效解决了多标准进修中的优化不平稳问题。
MUSE 是一种多标准进修格式,通过变分盼望最大化(EM)框架,将份子构造建模和蛋白质与药物互相作用收集进修相结合。EM 框架在多次迭代的交替过程中优化两个模块,即盼望步骤(E-step)和最大化步骤(M-step)。
在 E-step 期间,MUSE 行使每个生物份子的构造信息来进修无效的构造示意,以便在 M-step 中使用已知的互相作用和增强样本进行训练。它将蛋白质和药物对及其原子级构造信息作为输入,并通过 M-step 预计的互相作用进行增强。M-step 将份子级互相作用收集、构造嵌入和 E-step 的预计互相作用作为输入,并输出预计的互相作用。E-step 和 M-step 之间的迭代优化确保了份子构造和收集信息的交互捕获,并在两个标准上具有分别的进修率。
互相监视确保每个标准模型以适当的方式进修,从而能够行使分别标准的无效信息。该框架将在蛋白质和药物之间互相作用的多个多标准中得到证明。分析了 MUSE 减轻了多标准进修中的不平稳特征,并无效地整合了来自分别标准的分层和互补信息。
图 1:MUSE 框架及其应用示意图。(来源:论文)
在多标准任务上优于当前最进步前辈的模型
行使原子构造信息改进份子收集标准的预计
为了评估其格式,首先,钻研职员行使 MUSE 整合原子构造信息来改进份子收集标准(scale)预计。MUSE 在蛋白质-蛋白质互相作用(PPI)、药物-蛋白质互相作用(DPI)和药物-药物互相作用(DDI)这三个多标准互相作用预计任务上取得了最进步前辈的表现。
图 2:MUSE 在预计蛋白质和药物互相作用方面的性能。(来源:论文)
从份子收集标准改进原子构造标准的预计
除了行使原子构造信息改进份子收集标准预计之外,钻研职员还进一步钻研了 MUSE 在原子构造标准上进修和预计构造特性的能力,包括预计与 PPI 相关的界面接触和结合位点。
为了评估蛋白质链间接触的预计,将 MUSE 与 DIPS-Plus 基准测试中最进步前辈的格式进行了比较。MUSE 始终优于所有其他格式,验证了其在原子构造预计中的无效性和适应性。
图 3:MUSE 在原子构造标准上的性能。(来源:论文)
进一步评估 MUSE 以预计残基是否直接参与蛋白质-蛋白质互相作用。结果表明,MUSE 中份子收集规模的进修可以为原子构造标准的预计提供有价值的见解。
通过迭代优化缓解多标准进修的不平稳特性
为了探究为什么 MUSE 能够取得多标准示意的优越性能,钻研职员针对多标准进修的不平稳特性分析了 MUSE 的进修能力。
图 4:分析多标准进修中的不平稳特征。(来源:论文)
结果表明,MUSE无效缓解了多标准进修中的不平稳特性和贪婪进修,保证了训练过程中分别标准信息的综合行使。此外,行使率(utilization rate)分析的实验使钻研职员能够具体了解模型学到了什么,并证明使用 MUSE 来平稳模型在分别标准上的进修可以增强泛化能力。
所进修的多标准表征的可视化和解释
为了更好地理解进修到的多标准示意,钻研职员从分别的角度钻研了 MUSE 进修到的多标准示意,包括(1)MUSE 捕获 PPI 中涉及的原子构造信息(即构造基序和嵌入)的能力,以及(2)进修到的原子构造和份子收集示意之间的互相监视。
图 5:多标准示意的可视化和解释。(来源:论文)
作为结合位点预计的示例(PDB id:3CQQ-A),MUSE 可以准确识别属于结合位点的残基,准确率为 97.7%。这表明 MUSE 中的互相监视有助于原子构造标准模型进修与互相作用相关的关键子构造。
最后,钻研职员还进行了消融钻研,来钻研原子构造标准预计的伪标签对份子收集标准的影响。
虽然 MUSE 在基准测试中展示了最进步前辈的性能,但仍有可能提高其处理噪声和不完整的多标准下游任务的能力。这可以通过知识图和可解释的 AI 技术将先验知识结合起来。另一方面,该概念性多标准框架也可扩展到其他标准的计算药物发现。