编辑 | 萝卜皮
当前最新的蛋白质计划步骤,往往依赖于具有多达数百个数百万个参数的大型神经网络,同时并不清楚哪些残基依赖性对于确定蛋白质性能至关重要。
加州大学(University of California)、麻省理工学院(Massachusetts Institute of Technology)以及哈佛医学院(Harvard Medical School)的钻研人员表明:在不斟酌渐变相互作用的情况下,单个残基的氨基酸偏好,可以解释 8 个数据集中的大部分甚至有时几乎所有的拉拢渐变效力 (R^2 ~ 78-98%);所以,很少有窥察结果(约渐变残基数量的 100 倍)能够准确展望「保留的变异效力(held-out variant effects)」 (Pearson r > 0.80)。
该团队假设残基周围的局部构造背景足以展望渐变偏好(mutation preferences),开发了一种称为 CoVES(Combinatorial Variant Efluects from Structure)的无监视步骤,可运用基于构造的渐变偏好进行蛋白质计划。
测试结果证明,CoVES 不仅优于无模型步骤,而且还优于用于创建性能性和多样化蛋白质变体的复杂模型。CoVES 为识别性能性蛋白质渐变的复杂模型提供了一种有效的替代方案。
该钻研以「Protein design using structure-based residue preferences」为题,于 2024 年 2 月 22 日发布在《Nature Communications》。
分子进化和蛋白质工程的一个关键问题是:「多个渐变如何结合起来影响性能和未来的渐变轨迹(mutational trajectories)」。给定蛋白质的可能渐变轨迹可能是有限的,例如,如果单个取代的负面影响只能在另一个启用渐变存在的情况下才能容忍。
从概念上讲,渐变之间的这种一定依赖性产生了「崎岖」的适应度景观,其中对适应度增加渐变的自然或实验选择,并不一定会产生最佳性能的蛋白质。另一方面,如果多个渐变拉拢在一起而彼此之间没有一定的依赖关系,则序列适应度函数将产生一个简单的单调函数,选择可以更有效地发挥作用。同样,了解这种一定的依赖性对于确定渐变拉拢,从而计划具有所需性能的蛋白质疗法至关重要。
蛋白质性能建模的新成果,主要集中在提高模型适应更复杂适应性景观的能力上,但生物蛋白质适应性景观的复杂性尚不明确。一定依赖性的数量随相互作用顺序增加。例如,氨基酸长度为 100的蛋白质有 2000 个一阶位点项,约 100 万个二阶项和约 2 亿个三阶项。
训练这类任务模型需要大量数据、昂贵的计算资源,超参数调整和大量训练时间;并且,过度参数化的模型,容易过度拟合和产生误报。对于大多数蛋白质,准确展望拉拢蛋白质变异效力需要哪些依赖关系尚不清楚。生物适应度景观的复杂性将决定任何模型近似适应度函数的能力。
CoVES:一种无监视步骤
为了确定上位性在蛋白质适应性景观中的重要性,加州大学、麻省理工学院以及哈佛医学院的联合钻研团队检查了 6 种蛋白质的拉拢变异效力(运用 8 个单独收集的数据集)。
钻研人员发现,测量到的这些蛋白质的拉拢变异效力,可以通过仅斟酌 20*N 残基渐变偏好的函数得到很好的解释 (R^2~0.78–0.98),其中 N 表示渐变位置的数量,通过全局非线性传递,不斟酌渐变之间的一定依赖性。
钻研表明,少量的窥察(对残基渐变偏好参数的数量进行 5 倍过采样,并且在一个数据集中,观测值少至 100-200 个)足以对保留的拉拢变异效力实现高展望精度(Pearson r > 0.8),优于任何展望变异效力的无监视步骤。
图示:仅运用构造信息计划蛋白质序列,并运用根据实验窥察训练的替代适应度函数评估计划的序列。(来源:论文)
据此,该团队计划了一种无监视策略,称为 CoVES(Combinatorial Variant Effects from Structure)。CoVES 通过运用等变图神经模型(将残基周围的构造背景作为输入)来推断所需的残基渐变偏好,从而计划性能多样的蛋白质变体,而无需进行实验变体效力测量。
具体来说,只需运用 CoVES 独立地斟酌残基微环境,就可以有效地计划出性能丰富且多样的变异体,这种步骤在运用替代适应度函数评估蛋白质计划时,其表现与最先进的高容量神经步骤相当。
图示:CoVES 是一种从构造微环境中学习残基渐变偏好的无监视步骤,可以展望变异效力并生成计划性能性和多样化的序列。(来源:论文)
虽然这种渐变偏好模型并未显式地拿获渐变残基之间的依赖性,但这并不排除存在更高阶的上位性。
首先,每个残基的渐变偏好本质上拿获了对邻近残基的隐含依赖性;实际上,钻研人员窥察到在接触残基处的渐变可以改变给定残基的渐变偏好。
其次,虽然 78-98% 的窥察到的拉拢变异效力可以仅由渐变偏好解释,但在某些数据集中,剩余的变异可能会由残基之间的真正的生物特异性依赖性解释。
窥察结果表明,紧密的构造环境是变异效力展望和计划的主要决定因素。CoVES 与可以学习任意渐变依赖性的自回归步骤的性能相似,这表明局部构造环境可以拿获大部分展望效力。此外,钻研人员还发现,在监视的全局上位性模型中,接触残基处的渐变可以改变位点偏好。
结语
总的来说,该团队提供了一个新的视角来理解和计划蛋白质的变异效力,这对于未来的蛋白质工程和药物计划具有重要的启示意义。钻研结果表明,通过斟酌每个残基的渐变偏好,可以有效地计划出性能丰富且多样的蛋白质变异体,这为蛋白质计划提供了一种新的可能性。这无疑将为蛋白质计划领域带来新的启示和挑战,值得我们进一步探索和钻研。
论文链接:https://www.nature.com/articles/s41467-024-45621-4