成功率达100%,上交团队提出AI辅助的酶热稳定性工程策略,设计热稳定性的组合突变体

编辑 | ScienceAI优化酶的热稳定性对于蛋白质科学和工业应用至关重要。 目前,通过(半)理性设计和随机诱变方法可以较为准确地设计多个增强酶热稳定性的单点突变。 但当组合多个突变时,常常会出现复杂的上位效应,导致组合突变体完全失活。

图片

编辑 | ScienceAI

优化酶的热稳定性对于蛋白质科学和工业应用至关重要。目前,通过(半)理性设计和随机诱变方法可以较为准确地设计多个增强酶热稳定性的单点突变。但当组合多个突变时,常常会出现复杂的上位效应,导致组合突变体完全失活。

因此,优化酶通常需要进行多轮设计,从而逐步引入单个突变位点,整个过程非常耗时。

近日,上海交通大学生命科学技术学院杨广宇研究员团队的文章「Optimizing enzyme thermostability by combining multiple mutations using protein language model」在《mLife》正式上线,上海交通大学自然科学研究院洪亮教授为共同通讯。

该研究团队提出了一种人工智能辅助的酶热稳定性工程策略,可以高效地组合多个有益单点突变。在肌酸酶的进化实例中,仅经过两轮设计,获得了50个具有卓越热稳定性的组合突变体,设计成功率达 100%。经少量实验数据微调后的模型可以从数据集中有效捕捉组合突变体中的上位效应。

图片

主要内容

在该项研究中,作者利用一种 AI 辅助的酶热稳定性工程策略,通过少量实验数据微调 Pro-PRIME 模型来预测组合突变体的稳定性和活性。

其中,Pro-PRIME 模型是基于 9600 万个宿主细菌菌株的最佳生长温度数据进行训练的蛋白质语言模型,在设计和优化高温酶方面表现优异。微调所使用的初始数据集包括来自肌酸酶的 73 个低阶突变体的序列-热稳定性和活性数据。

然后使用微调后的模型来预测来自 18 个单点突变体的所有可能突变体的热稳定性和活性。主要目标是在保持至少 60% 的相对活性(相对于野生型),同时增强热稳定性的突变体(图1)。

图片

图 1:基于蛋白质语言模型组合突变的策略。整个过程包括四个步骤:(1) 收集数据,(2) 蛋白质语言模型的微调,(3) 在组合序列空间中预测所有突变体,以及 (4) 验证所选突变体。红色虚线是第二轮模型微调。

为了进一步提高预测精度,研究人员将第一轮预测的实验表征结果整合到数据集中,并进行了第二轮微调、预测和选择。两轮微调和预测过程仅用了两周时间,共设计 50 个组合突变体,实现了 100% 的热稳定性设计成功率(图 2)。

图片

图 2:组合突变体的热稳定性和相对活性数据。黄色圆圈是指相对活性数据。条形图是指突变体的热稳定性数据,其中蓝色、青色和橙色分别指初始数据集、第一轮和第二轮预测的数据集

其中,最佳突变体 13M4 包含 13 个突变位点,与野生型相比,它的活性基本保持不变,在 Tm 上提高了 10.19°C,在 58°C 下的半衰期增加了约 655 倍。

在回顾数据时发现,即使某些突变在空间上相距甚远,也存在复杂的高阶上位性效应。例如 K351E 单点突变表现为阴性突变,但其在高阶突变体中却表现为阳性突变。此外,单点突变 D17V 和 I149V 存在明显的协同作用。

结果表明,使用高质量的实验数据微调模型的参数,可以帮助模型准确捕获数据集中的已存在的上位效应,并用于后续高阶组合突变体的适应度预测。

动态相关矩阵分析的结果表明,影响稳定性的突变不仅影响其局部环境的动力学,在某些情况下,还影响远端结构区域的动力学(图 3)。该项技术可以作为未来研究或设计上位效应的一个有效工具。

图片

图 3:突变之间的上位效应分析。K351E (A) 和 D17V/I149V (B) 在 T值上的上位效应。蓝色表示负效应,橙色表示正效应。(C) 肌酸酶野生型和对应突变体的动态互相关矩阵图。相关系数 (Cij)用不同颜色表示。突变位点用红色箭头标出,突变周围显著的动力学相关区域用红色框突出显示。(D) 突变体结构与野生型结构比较的的标准化 RMSF 变化。

主要亮点

1、本研究提出的人工智能辅助的酶热稳定性工程策略,可以高效地组合多个有益单点突变。仅通过两轮设计,共表征 50 个组合突变体,稳定性设计成功率达到 100%。与野生型相比,最佳突变体 13M4 的 T提升了 10.19℃,58℃ 半衰期增加 655 倍,同时催化活性保持不变。

2、通过利用少量但高质量的实验数据微调蛋白质语言模型参数,微调后的模型可以准确捕捉初始数据集中的上位效应,包括符号和协同上位效应。这表面,实验数据对于提升模型对高阶组合突变体的预测性能至关重要。

3、利用动态相关矩阵分析,该研究揭示了长程上位效应的机制,显示了远距离突变之间在动力学上的相关性,从而共同影响突变体的稳定性。

4、通过采用这种策略,研究团队仅通过两轮设计,全面探索了组合序列空间中超 26 万种可能的突变体,最佳突变体包含 13 个突变,大大缩短了传统方法中所需要的进化轮次,提升了蛋白质工程的效率。

5、研究强调了将来自蛋白质工程的数据与先进的人工智能模型相结合,可以进一步提升模型的预测性能,从而提升蛋白质工程效率。该策略可以推广应用至多种关键酶分子的进化任务中。

通讯作者信息

图片

杨广宇博士, 上海交通大学生命科学技术学院研究员,主要从事酶结构-功能关系解析、酶定向进化、体外合成生物学等研究方向。

论文链接:https://onlinelibrary.wiley.com/doi/10.1002/mlf2.12151

相关资讯

上交大洪亮课题组&上海AI实验室团队发布FSFP,基于语言模型的蛋白质功能小样本预测方法,登Nature子刊

编辑 | ScienceAI近日,上海交通大学自然科学研究院/物理天文学院/张江高研院/药学院洪亮教授课题组,联合上海人工智能实验室青年研究员谈攀,在蛋白质突变-性质预测上取得重要突破。该工作采用全新的训练策略,在使用极少湿实验数据的情况下,极大地提高了传统蛋白质预训练大模型在突变-性质预测的效果。该研究成果以《Enhancing the efficiency of protein language models with minimal wet-lab data through few-shot learning

加速蛋白质工程,微软开发蛋白突变效应预测AI框架µFormer

编辑 | KX蛋白质工程是合成生物学领域的重要研究方向之一。近年来,AI 辅助的蛋白质工程逐渐发展成为一种高效的蛋白质分子设计新策略。近日,微软研究院科学智能中心的研究人员提出了深度学习框架 µFormer,其将预训练的蛋白质语言模型与定制设计的评分模块相结合,从而预测蛋白质的突变效应。µFormer 在预测高阶突变体、建模上位(epistatic)相互作用和处理插入方面,实现了最先进的性能。通过将 µFormer 与强化学习框架相结合,可以高效探索广阔的突变空间,涵盖数万亿个突变候选物,来设计活性增强的蛋白质变体

用基于结构的突变偏好进行蛋白质设计,加州大学、MIT、哈佛医学院团队开发了一种无监督方法

编辑 | 萝卜皮当前最新的蛋白质设计方法,往往依赖于具有多达数百个数百万个参数的大型神经网络,同时并不清楚哪些残基依赖性对于确定蛋白质功能至关重要。加州大学(University of California)、麻省理工学院(Massachusetts Institute of Technology)以及哈佛医学院(Harvard Medical School)的研究人员表明:在不考虑突变相互作用的情况下,单个残基的氨基酸偏好,可以解释 8 个数据集中的大部分甚至有时几乎所有的组合突变效应 (R^2 ~ 78-98%