编辑 | 萝卜皮
辨别蛋白质的性能位点,例如蛋白质、肽或其他生物成分的连系位点,对于理解相关的生物进程和药物计划至关重要。然而,现有的鉴于序列的要领的展望准确性有限,因为它们只考虑序列相邻的上下文特征并且缺乏构造信息。
上海交通大学和中山大学的研讨人员提出了 DeepProSite,用于利用蛋白质构造和序列信息来辨别蛋白质连系位点。
DeepProSite 首先从 ESMFold 生成蛋白质构造,并从预训练的言语模型生成序列表示。然后,它使用 Graph Transformer 并将连系位点展望制定为图节点分类。
在展望蛋白质-蛋白质/肽连系位点时,DeepProSite 在大多数指标上都优于当前鉴于序列和构造的要领。此外,与鉴于构造的展望要领相比,DeepProSite 在展望未连系构造时保持了高本能。DeepProSite 还可以扩展到核酸和其他配体连系位点的展望,验证了其泛化能力。
该研讨以「DeepProSite: structure-aware protein binding site prediction using ESMFold and pretrained language model」为题,于 2023 年 11 月 28 日发布在《Bioinformatics》。
蛋白质与各种生物分子之间的相互作用构成了大多数生物进程中蛋白质性能的基础,例如基因表达调控、信号转导和代谢途径调控。
这些相互作用调节正常细胞性能,并在各种疾病的发病机制中发挥关键作用。例如,在肿瘤生长、自身免疫性疾病和病原体入侵等疾病中,蛋白质-蛋白质相互作用的失调可能导致病理生理进程的紊乱。此外,治疗性肽因其可以与蛋白质连系并具有治疗作用而成为药物开发的焦点。
因此,了解蛋白质连系位点的位置和特征对于理解蛋白质性能和药物计划至关重要。传统的连系位点检测要领,如 X 射线晶体学、双杂交筛选、表面等离振子共振技术和亲和纯化质谱法,价格昂贵且耗时。
此外,一些技术挑战,包括肽尺寸小、连系亲和力弱、构象灵活性、高瞬时性和蛋白质-蛋白质相互作用的动力学,增加了准确辨别连系残基的难度。所以,开发新的、快速的、准确的计算要领非常重要。
在最新的研讨中,上海交通大学和中山大学的研讨人员提出了 DeepProSite,是一种拓扑感知的 Graph Transformer 模型,它可以从蛋白质序列中生成有效的构造信息和序列信息表示,分别利用 ESMFold 和预训练的言语模型来展望蛋白质连系位点。
图示:DeepProSite 要领的整体流程。(来源:论文)
仅依靠蛋白质序列,DeepProSite 就实现了出色的展望本能,甚至超越了最先进的鉴于构造的要领,从而克服了现有鉴于序列和鉴于构造的要领的局限性。研讨还表明,在展望未连系构造时,鉴于构造的竞争要领的准确性大大降低,而 DeepProSite 保持了与仅鉴于序列的展望器相当的本能,进一步证明了仅使用序列的无偏训练进程的好处。
图示:DeepProSite 与鉴于构造的要领对 31 种具有连系和未连系构造的蛋白质进行本能比较。(来源:论文)
与现有技术相比,DeepProSite 的卓越本能归因于三个因素:(i) ESMFold 展望的高质量构造,(ii) 预训练的蛋白质言语模型提供了增强展望质量的强大表示,(iii) 构造感知 Graph Transformer 有效辨别和展望连系残基模式,从而提高该要领的整体效率。
同样 DeepProSite 要领也有某些方面还可以改进。例如,通过利用蛋白质一级序列构建异质性图,可以增强模型对不同构造展望质量的鲁棒性。此外,该要领仅限于仅根据蛋白质相关信息来辨别可能的蛋白质连系残基,并且无法展望特定配体的连系模式。
总之,该要领可以为研讨蛋白质-蛋白质/肽连系模式、渐变的致病机制和药物开发提供有价值的见解。例如,一些疾病是由导致蛋白质-蛋白质/肽连系位点改变的渐变引起的,从而导致蛋白质性能异常。了解这些位点的特征及其对渐变的影响有助于揭示这些致病机制。
此外,蛋白质-蛋白质/肽连系位点的展望可以为药物开发提供有价值的信息,包括计划更精确的靶点以及提高药物选择性和亲和力。此类展望还可用于研讨蛋白质相互作用网络和生物信号传导,以进一步了解蛋白质的生物学性能。
未来,研讨人员打算增强 Graph Transformer 的计划,并连系多任务学习,将其应用扩展到其他各个领域。这涉及展望蛋白质与其他配体的连系位点并辨别蛋白质的性能位点,例如甲基化位点、磷酸化位点和变构位点。
论文链接:https://academic.oup.com/bioinformatics/article/39/12/btad718/7453375