精确预测相分离蛋白质,同济&中国科学院机器学习预测器PSPire

编辑 | 萝卜皮对蛋白质相分离(PS)的理解的迅速发展带来了丰富的生物信息学工具来预测相分离蛋白质(PSP)。这些工具通常偏向于具有大量本质无序区域 (IDR) 的 PSP,因此经常低估没有 IDR 的潜在 PSP。并且,PS 不仅受 IDR 控制,还受结构化模块结构域以及不直接反映在氨基酸序列的其他相互作用影响。在最新的研究中,同济大学和中国科学院的研究团队开发了 PSPIre,一种机器学习预测器,它结合了残基级和结构级特征,用于精确预测 PSP。与当前的 PSP 预测因子相比,PSPire 在识别没有 IDR

图片

编辑 | 萝卜皮

对蛋白质相分离(PS)的理解的迅速发展带来了丰富的生物信息学工具来预测相分离蛋白质(PSP)。这些工具通常偏向于具有大量本质无序区域 (IDR) 的 PSP,因此经常低估没有 IDR 的潜在 PSP。并且,PS 不仅受 IDR 控制,还受结构化模块结构域以及不直接反映在氨基酸序列的其他相互作用影响。

在最新的研究中,同济大学和中国科学院的研究团队开发了 PSPIre,一种机器学习预测器,它结合了残基级和结构级特征,用于精确预测 PSP。

与当前的 PSP 预测因子相比,PSPire 在识别没有 IDR 的 PSP 方面显示出显著的改进。这表明非 IDR、基于结构的特征在整个 PS 过程中多价相互作用中的关键作用。生物验证实验表明,PSPire 预测的 11 个候选 PSP 中,有 9 个可在细胞内形成冷凝物。

该研究以「Machine learning predictor PSPire screens for phase-separating proteins lacking intrinsically disordered regions」为题,于 2024 年 3 月 8 日发布在《Nature Communications》。

图片

细胞内复杂生化反应的复杂调控一直是一个重要问题。膜结合的细胞器被磷脂双层包围,物理隔离其内部和外部环境,确保稳定的反应环境。

然而,无膜细胞器(MLO),例如核仁和应激颗粒,可以将蛋白质和核酸浓缩在特定的细胞位点,而不与膜结合。这些 MLO 的形成、组成控制和功能调节多年来一直难以捉摸。

2009 年,一项研究发现,秀丽隐杆线虫生殖细胞中的 P 颗粒可以形成液体状液滴,表明相分离 (PS) 可能是这些生物分子凝聚物形成的基础。随后的研究表明 PS 参与各种基本生物过程,如跨膜信号传导、DNA 修复、转录和 RNA 加工。生物分子凝聚体的异常形成或破坏可能导致神经退行性疾病、癌症和传染病。

相分离蛋白 (PSP) 的一个关键特征是它们能够形成多种弱的、瞬时的、非共价相互作用。相当多的 PSP 可以通过本质无序区域(IDR)之间的相互作用形成生物分子凝聚体,这些区域具有高度灵活的构象并呈现多种弱相互作用的元素。

在这里,研究人员将 PSP 分为两类:包含 IDR 的 (ID-PSP) 和不包含 IDR 的 (noID-PSP)。IDR 是根据 AlphaFold 预测的蛋白质结构的 pLDDT 分数确定的。

预测 PSP 的计算方法的发展对于促进整个蛋白质组的快速计算机筛选至关重要。但是,当前的 PSP 预测器严重偏向于预测 ID-PSP,导致预测 noID-PSP 的性能不佳。这种偏见凸显了在没有 IDR 的情况下准确识别 PSP 的普遍挑战。

由于 noID-PSP 的结构可以深入了解其功能背后的多价相互作用,研究人员假设整合蛋白质结构信息可以显著增强 noID-PSP 的预测。目前的 PSP 预测因子仅依赖于氨基酸序列,而不利用蛋白质结构信息,这可能是由于高质量蛋白质结构的可用性有限。

在最新的工作中,利用完整人类蛋白质组中蛋白质的高精度原子坐标的可用性,同济大学和中国科学院的研究团队训练了 XGBoost 分类器 PSPire,通过结合残基水平和结构水平特征来预测 PSP。

图片

图示:PSPire 的工作流程。(来源:论文)

该团队采用当前两个最好的预测器 PSAP 和 PhaSePred 用于预测 PSP 的 PS 相关特征,并分别计算 IDR 和非 IDR 上的这些特征。使用各种数据集的评估表明,该模型在将 noID-PSP 与非 PSP 进行分类方面显著优于当前的预测器

图片

图示:PSPire 与当前 PSP 预测器的性能基准测试。(来源:论文)

与目前主要依赖氨基酸特征的预测器不同,PSPire 集成了 3D 结构信息,在识别 noID-PSP 方面表现出卓越的性能。因此,PSPire 有效地识别了 PSP 候选者,并有助于研究人员了解这些蛋白质及其在冷凝物形成中的作用。

驱动相分离的多价相互作用不仅涉及 IDR 驱动的非特异性相互作用,还广泛涉及模块化域介导的特异性相互作用。然而,大多数现有的 PSP 预测因子对 IDR 含量高的蛋白质表现出明显的偏见,导致在预测 noID-PSP 时表现不佳。

为了解决这个问题,研究人员在 SSUP 的基础上引入了非 IDR 特性来补充 IDR 相关的特性。分析表明,这些 SSUP 相关特征有效地区分 PSP 和非 PSP,表明 SSUP 残基与结构域驱动蛋白的 PS 过程固有的多价性之间存在很强的相关性。

此外,该团队还计算了与贴纸相关的特征,可以有效区分 PSP 和非 PSP。因此,SSUP 残基,特别是那些构成贴纸的残基,提供了突变可能影响 PS 行为的位点,这对于进一步的实验验证很有价值,并且有可能帮助识别与 PS 相关的药物靶点。

图片

图示:PSPIre 预测的候选 PSP 在 HeLa 细胞和体外会发生相分离。(来源:论文)

除了生物实验之外,还可以利用分子动力学进一步探索 SSUP 中的关键残基,从而揭示驱动 PS 的潜在机制。利用这些重要特征,PSPire 报告了 SSUP 的残基位置,并将贴纸识别为输出。

该理论框架被称为「贴纸和间隔物模型(the stickers-and-spacers model)」,描述了各种相分离系统背后的分子语法。这些系统可以分为三种不同的类型:折叠蛋白质、本质无序蛋白质和线性多价蛋白质。

对于折叠蛋白质,贴纸被定义为蛋白质表面上的相互作用斑块,而间隔物由不参与相互作用的区域组成。在本质上无序的蛋白质中,贴纸可能包括单个氨基酸、短线性基序或两者的组合,其间散布有间隔基,间隔基是插入的非相互作用残基。

对于线性多价蛋白,贴纸包含多个折叠结构域,间隔物是连接这些结构域的柔性接头。对于明确的结合域,贴纸被表征为域表面上的结合位点,非结合表面残基充当额外的间隔物。从另一个角度来看,与贴纸、IDR 和 SSUP 相关的计算特征旨在准确捕捉这三种贴纸的不同属性。

关于贴纸相关的功能,PSPire 重点关注静电相互作用,而不是疏水相互作用,并考虑以下因素。静电相互作用的强度(范围为 2 至 15 kcal/mol)通常大于疏水相互作用的强度(范围为 0.5 至 3 kcal/mol)。

此外,ID-PSP 和 noID-PSP 中 SSUP 中疏水残基的比例显著低于非 PSP,而 ID-PSP 和 noID-PSP 中 SSUP 中带电残基的比例显著高于非 PSP。对于结构域驱动的相分离,静电相互作用可能比疏水相互作用更普遍。研究人员尝试通过加入疏水残基来修改贴纸识别方法。然而,疏水残基的掺入并没有提高 PSPIre 的预测能力。

论文链接:https://www.nature.com/articles/s41467-024-46445-y

相关资讯

人人都是“美工”,微软上线贴纸制作器:轻松搞定邀请函、海报等

微软旗下 AI 图像编辑器 Microsoft Designer 掌握新技能,推出了名为“贴纸制作器”(Sticker Creator)的全新工具,让用户自由探索创建各种贴纸。和其它文生图工具一样,“贴纸制作器”也支持基于用户输入的文本内容,来生成符合描述的贴纸。这样没有美术功底的人也能为文档、邀请函、海报、演示文稿、社交媒体、消息应用程序等获得想要的效果,该服务使用 DALL-E 来处理您的提示并将其转化为图像。任意拥有微软账号的人都可以打开 Microsoft Designer 中试用贴纸创建器,IT之家附上链

多伦多大学团队使用AlphaFold获得对蛋白质结构的新见解

编辑 | 萝卜皮AlphaFold 蛋白质结构数据库包含数百万种蛋白质的预测结构。对于大多数含有本质无序区域 (IDR) 的人类蛋白质,这些区域不采用稳定的结构,通常认为这些区域具有较低的 AlphaFold2 置信度分数,反映了低置信度的结构预测。多伦多大学(University of Toronto)的研究团队表明 AlphaFold2 为近 15% 的人类 IDR 分配了可信结构。通过与已知条件折叠(即在结合或其他特定条件下)的 IDR 子集的实验 NMR 数据进行比较,研究人员发现 AlphaFold2 通

华科大团队开发几何三角形感知蛋白质语言模型,预测蛋白质-蛋白质接触

编辑 | 萝卜皮有关相互作用蛋白质之间的残基-残基距离的信息对于蛋白质复合物的结构建模非常重要,并且对于理解蛋白质-蛋白质相互作用的分子机制也很有价值。随着深度学习的出现,人们开发了许多方法来准确预测单体的蛋白质内残基-残基接触。然而,准确预测蛋白质复合物,尤其是异源蛋白质复合物的蛋白质间残基-残基接触仍然具有挑战性。华中科技大学的研究人员开发了一种基于蛋白质语言模型的深度学习方法,通过在深度神经网络中引入三角形更新和三角形自注意力的三角形感知机制来预测蛋白质复合物的蛋白质间残基-残基接触(称为 DeepInter