精确预计相别离蛋白质,同济&中国科学院机器学习预计器PSPire

编辑 | 萝卜皮对蛋白质相别离(PS)的理解的迅速发展带来了丰富的生物信息学工具来预计相别离蛋白质(PSP)。这些工具通常偏向于具有大量本质无序区域 (IDR) 的 PSP,因此经常低估没有 IDR 的潜在 PSP。并且,PS 不仅受 IDR 控制,还受布局化模块布局域以及不直接反映在氨基酸序列的其他相互作用影响。在最新的研讨中,同济大学和中国科学院的研讨团队开发了 PSPIre,一种机器学习预计器,它连系了残基级和布局级特性,用于精确预计 PSP。与当前的 PSP 预计因子相比,PSPire 在鉴别没有 IDR

精确预计相别离蛋白质,同济&中国科学院机器学习预计器PSPire

编辑 | 萝卜皮

对蛋白质相别离(PS)的理解的迅速发展带来了丰富的生物信息学工具来预计相别离蛋白质(PSP)。这些工具通常偏向于具有大量本质无序区域 (IDR) 的 PSP,因此经常低估没有 IDR 的潜在 PSP。并且,PS 不仅受 IDR 控制,还受布局化模块布局域以及不直接反映在氨基酸序列的其他相互作用影响。

在最新的研讨中,同济大学和中国科学院的研讨团队开发了 PSPIre,一种机器学习预计器,它连系了残基级和布局级特性,用于精确预计 PSP。

与当前的 PSP 预计因子相比,PSPire 在鉴别没有 IDR 的 PSP 方面显示出昭著的改进。这表白非 IDR、基于布局的特性在整个 PS 过程中多价相互作用中的关键作用。生物验证实验表白,PSPire 预计的 11 个候选 PSP 中,有 9 个可在细胞内酿成冷凝物。

该研讨以「Machine learning predictor PSPire screens for phase-separating proteins lacking intrinsically disordered regions」为题,于 2024 年 3 月 8 日发布在《Nature Communications》。

精确预计相别离蛋白质,同济&中国科学院机器学习预计器PSPire

细胞内复杂生化反应的复杂调控一直是一个重要问题。膜连系的细胞器被磷脂双层包围,物理隔离其内部和外部环境,确保稳定的反应环境。

然而,无膜细胞器(MLO),例如核仁和应激颗粒,可以将蛋白质和核酸浓缩在特定的细胞位点,而不与膜连系。这些 MLO 的酿成、组成控制和功能调节多年来一直难以捉摸。

2009 年,一项研讨发现,秀丽隐杆线虫生殖细胞中的 P 颗粒可以酿成液体状液滴,表白相别离 (PS) 可能是这些生物份子凝聚物酿成的基础。随后的研讨表白 PS 参与各种基本生物过程,如跨膜信号传导、DNA 修复、转录和 RNA 加工。生物份子凝聚体的异常酿成或破坏可能导致神经退行性疾病、癌症和传染病。

相别离蛋白 (PSP) 的一个关键特性是它们能够酿成多种弱的、瞬时的、非共价相互作用。相当多的 PSP 可以通过本质无序区域(IDR)之间的相互作用酿成生物份子凝聚体,这些区域具有高度灵活的构象并呈现多种弱相互作用的元素。

在这里,研讨人员将 PSP 分为两类:包含 IDR 的 (ID-PSP) 和不包含 IDR 的 (noID-PSP)。IDR 是根据 AlphaFold 预计的蛋白质布局的 pLDDT 分数确定的。

预计 PSP 的计算方法的发展对于促进整个蛋白质组的快速计算机筛选至关重要。但是,当前的 PSP 预计器严重偏向于预计 ID-PSP,导致预计 noID-PSP 的性能不佳。这种偏见凸显了在没有 IDR 的情况下准确鉴别 PSP 的普遍挑战。

由于 noID-PSP 的布局可以深入了解其功能背后的多价相互作用,研讨人员假设整合蛋白质布局信息可以昭著增强 noID-PSP 的预计。目前的 PSP 预计因子仅依赖于氨基酸序列,而不利用蛋白质布局信息,这可能是由于高质量蛋白质布局的可用性有限。

在最新的工作中,利用完整人类蛋白质组中蛋白质的高精度原子坐标的可用性,同济大学和中国科学院的研讨团队训练了 XGBoost 分类器 PSPire,通过连系残基水平和布局水平特性来预计 PSP。

精确预计相别离蛋白质,同济&中国科学院机器学习预计器PSPire

图示:PSPire 的工作流程。(来源:论文)

该团队采用当前两个最好的预计器 PSAP 和 PhaSePred 用于预计 PSP 的 PS 相干特性,并分别计算 IDR 和非 IDR 上的这些特性。使用各种数据集的评估表白,该模型在将 noID-PSP 与非 PSP 进行分类方面昭著优于当前的预计器

精确预计相别离蛋白质,同济&中国科学院机器学习预计器PSPire

图示:PSPire 与当前 PSP 预计器的性能基准测试。(来源:论文)

与目前主要依赖氨基酸特性的预计器不同,PSPire 集成了 3D 布局信息,在鉴别 noID-PSP 方面表现出卓越的性能。因此,PSPire 有效地鉴别了 PSP 候选者,并有助于研讨人员了解这些蛋白质及其在冷凝物酿成中的作用。

启动相别离的多价相互作用不仅涉及 IDR 启动的非特异性相互作用,还广泛涉及模块化域介导的特异性相互作用。然而,大多数现有的 PSP 预计因子对 IDR 含量高的蛋白质表现出明显的偏见,导致在预计 noID-PSP 时表现不佳。

为了解决这个问题,研讨人员在 SSUP 的基础上引入了非 IDR 特性来补充 IDR 相干的特性。分析表白,这些 SSUP 相干特性有效地区分 PSP 和非 PSP,表白 SSUP 残基与布局域启动蛋白的 PS 过程固有的多价性之间存在很强的相干性。

此外,该团队还计算了与贴纸相干的特性,可以有效区分 PSP 和非 PSP。因此,SSUP 残基,特别是那些构成贴纸的残基,提供了突变可能影响 PS 行为的位点,这对于进一步的实验验证很有价值,并且有可能帮助鉴别与 PS 相干的药物靶点。

精确预计相别离蛋白质,同济&中国科学院机器学习预计器PSPire

图示:PSPIre 预计的候选 PSP 在 HeLa 细胞和体外会发生相别离。(来源:论文)

除了生物实验之外,还可以利用份子动力学进一步探索 SSUP 中的关键残基,从而揭示启动 PS 的潜在机制。利用这些重要特性,PSPire 报告了 SSUP 的残基位置,并将贴纸鉴别为输出。

该理论框架被称为「贴纸和隔断物模型(the stickers-and-spacers model)」,描述了各种相别离系统背后的份子语法。这些系统可以分为三种不同的类型:折叠蛋白质、本质无序蛋白质和线性多价蛋白质。

对于折叠蛋白质,贴纸被定义为蛋白质表面上的相互作用斑块,而隔断物由不参与相互作用的区域组成。在本质上无序的蛋白质中,贴纸可能包括单个氨基酸、短线性基序或两者的组合,其间散布有隔断基,隔断基是插入的非相互作用残基。

对于线性多价蛋白,贴纸包含多个折叠布局域,隔断物是连接这些布局域的柔性接头。对于明确的连系域,贴纸被表征为域表面上的连系位点,非连系表面残基充当额外的隔断物。从另一个角度来看,与贴纸、IDR 和 SSUP 相干的计算特性旨在准确捕捉这三种贴纸的不同属性。

关于贴纸相干的功能,PSPire 重点关注静电相互作用,而不是疏水相互作用,并考虑以下因素。静电相互作用的强度(范围为 2 至 15 kcal/mol)通常大于疏水相互作用的强度(范围为 0.5 至 3 kcal/mol)。

此外,ID-PSP 和 noID-PSP 中 SSUP 中疏水残基的比例昭著低于非 PSP,而 ID-PSP 和 noID-PSP 中 SSUP 中带电残基的比例昭著高于非 PSP。对于布局域启动的相别离,静电相互作用可能比疏水相互作用更普遍。研讨人员尝试通过加入疏水残基来修改贴纸鉴别方法。然而,疏水残基的掺入并没有提高 PSPIre 的预计能力。

论文链接:https://www.nature.com/articles/s41467-024-46445-y

给TA打赏
共{{data.count}}人
人已打赏
AI

消息称三星电子年底前向 Naver 交付 AI 芯片 Mach-1,交易额至高 1 万亿韩元

2024-3-22 16:42:28

AI

基于 Gemini,google宣布将为 Pixel / Fitbit 智能手表手环打造“小我健全 AI 大模型”

2024-3-22 21:00:28

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索