编辑 | 萝卜皮
传统的蛋白质工程方法(如定向进化)虽然有效,但通常速度缓慢且劳动密集。机器学习和「自动化生物工厂」的进步为优化这些过程提供了新的机会。
浙江大学的研究人员设计了一个基于蛋白质语言模型的自动进化平台,这是一个在设计-构建-测试-学习循环内实现蛋白质工程自动化的闭环系统。
该系统大大提高了蛋白质进化的速度和准确性,推动了蛋白质工程在工业应用方面的快速发展。
该研究以「Integrating protein language models and automatic biofoundry for enhanced protein evolution」为题,于 2025 年 2 月 11 日发布在《Nature Communications》。
蛋白质在医药、化学制造、能源、农业和消费品等各个领域发挥着重要作用。然而,对于工业应用,蛋白质通常需要进行工程改造以增强其稳定性、活性、选择性和结合亲和力等特性。
蛋白质工程已开发出多种策略,定向进化是一种成熟且有效的方法。传统的定向进化依赖于随机诱变和高通量筛选的迭代循环来识别具有所需特性的变体。
虽然这一过程非常有效,但耗时且费力。此外,由于定向进化通常一次引入一个突变,因此可能陷入局部适应度最优,从而限制进一步优化。
在最新的研究中,浙江大学的研究人员提出了一种蛋白质工程策略称为 PLMeAE(protein language model-enabled automatic evolution),将蛋白质语言模型 (PLM)的预测能力与「自动化生物工厂」的运营效率相结合。
在设计-构建-测试-学习周期中,学习和设计阶段利用 PLM 的见解来阐明蛋白质序列适应度关系并采样新突变体,而构建和测试阶段则使用自动化生物工厂高效进行。
图示:蛋白质语言模型支持的自动蛋白质进化概述。(来源:论文)
PLMeAE 概述
PLMeAE 平台是一个在设计-构建-测试-学习(DBTL)循环内进行自动化蛋白质工程的闭环系统。该平台采用 PLM 来促进学习和设计阶段,而构建和测试阶段则由「自动化生物工厂」执行。
该流程从创建变体库开始,在设计阶段采用 PLM 启用的零样本学习方法。具体来说,PLM 解决了两个零样本任务,具体取决于突变目标位点的可用性。
首先,在没有关于目标蛋白的先验信息的情况下,PLM 用于在零样本设置中预测高适应度单突变体。其次,当突变位点已根据之前的实验或通过物理建模技术(例如对接、分子动力学模拟)确定时,PLM 用于在给定目标位点预测零样本高适应度多突变变体。
随后,在构建和测试步骤中,通过 biofoundry 的自动化设施合成、表达和测试所提出的库。在收集实验数据后,在学习阶段,PLM 对蛋白质序列进行编码,并训练监督机器学习模型以将这些变体与其适应度水平相关联。
随后,应用优化算法探索变体前景,促进合理设计并确定有希望进行后续测试的变体。这种类似于主动学习策略的迭代过程持续进行,直到开发出最佳变体。
用于蛋白质变体设计的 PLM
在将 PLM 应用于蛋白质变体设计时,研究人员开发了两个模块,分别用于预测不知道突变位点的蛋白质的高适应度突变体和已知突变位点的蛋白质。
模块 I 用于没有先前确定的突变位点的蛋白质。在此模块中,PLM 预测具有高适应性可能性的单个突变体,并将此可能性作为适应性水平的代表。然后使用这些高可能性突变体来识别关键突变位点。
另一方面,模块 II 针对具有已知突变位点的蛋白质,并使用 PLM 来抽取有用的突变体进行实验表征。此外,PLM 用于编码蛋白质序列以训练适应度预测器。模块 I 和模块 II 可以组合使用或独立使用。
图示:用于蛋白质自动进化的蛋白质语言模型。(来源:论文)
自动化生物工厂
该团队的机器人系统擅长构建蛋白质变体并持续收集蛋白质变体功能数据,通过全面的元数据跟踪和实时数据共享确保高可重复性。
通过将 PLM 的高级预测功能与机器人系统的高通量功能相结合,该方法旨在超越传统限制并加快发现和增强对工业应用至关重要的蛋白质。
图示:自动蛋白质变体构建和测试的概述。(来源:论文)
实践与验证
研究人员成功利用 PLMeAE 改造 pCNF-RS,提高酶活性,提高 ncAAs 掺入蛋白质的效率。经过四轮进化,获得的最佳 pCNF-RS 变体使酶活性提高了 2.4 倍,掺入 pAcF 的蛋白质产量提高了 12.2 倍。
自动进化过程中,一轮自动构建并检测了 96 个突变体,与biofoundry中自动化的 96 通道电子移液器相对应。四轮进化共构建并检测了 384个 突变体。
以工程 pCNF-RS 为例,该团队的生物工厂一轮实验测试大约需要 59 小时,其中包括大约 24 小时的引物运送延迟,而 ML 模型训练和新变体预测则需要不到 1 小时。四个设计-构建-测试-学习周期仅花费 240 小时,大约 10 天。
图示:pCNF-RS 的自动进化。(来源:论文)
整个过程大约需要 5 天的准备时间、7 天的一次正向选择时间、7 天的一次负向选择时间以及 5 天的基于荧光的最终筛选时间,两轮选择总共需要 38 天。
然而,实验失败可能发生在突变库构建、细胞转化、质粒制备和分离等步骤中。此外,可能需要更多轮正负筛选才能获得更好的变体。这会导致整个过程在实际情况下花费更长的时间。
讨论
PLMeAE 与这些早期研究的不同之处在于所使用的 ML 模型和自动化设施的功能。PLMeAE 使用蛋白质语言模型对知情变体进行零样本预测,并对蛋白质进行编码以基于多层感知器训练适应度预测器,而以前的研究主要应用在公共数据集上训练的机器学习模型(例如贝叶斯优化),这些模型无法进行零样本预测。
在自然进化过程中,蛋白质遵循一套固有原则,以实现最佳稳定性、功能和效率。在大量天然蛋白质数据集上训练的 PLM 学习并利用了这些原则,从而实现了特定蛋白质的零样本优化。然而,酶在类别和催化机制方面具有显著的多样性,使用 PLM 选择有前途的变体仍然是一个挑战。
此外,当设计一种酶来接受非天然底物并使其具有新功能时,很有可能没有天然酶具有此功能。在这种情况下,PLM 可能无法学习获得这种新功能的原理,因此可能无法提供改进的变体。
例如,在这项研究中,PLM 设计了 96 个第一轮变体,其中有 4 个突变目标位点,只有 6 个与野生型相比显示出更高的适应度值。因此,PLMeAE 主要应用 PLM 来提出明智的突变体和新的突变位点,并将 PLM 与监督机器学习模型相结合,以探索酶的适应度景观。
这利用了在 PLM 中学习到的原理来指导酶的进化,并确保蛋白质适应度在进化过程中不断提高。对于更具挑战性的任务,即目标适应度景观与天然蛋白质的适应度景观相差甚远,PLM 会以非常低的准确率预测变体,导致训练数据集中没有阳性变体。
然而,由于研究人员使用基于 ITC 的采样策略,PLM 预测的变体在序列中具有很高的多样性,这有助于监督 ML 模型学习适应度景观。此外,由于仅选择几种氨基酸作为突变目标,序列空间有限。使用 PLMeAE 获得改进的变体仍然很有可能,尽管对于如此具有挑战性的任务可能需要更多轮进化。
应用潜力
PLMeAE 平台具有扩展应用的潜力,可以设计通过液相色谱 (LC)、气相色谱 (GC) 和质谱 (MS) 测量活性的酶。为了加速色谱和质谱分析,已经开发了各种自动化装置。
尽管 PLMeAE 在蛋白质工程领域具有巨大潜力,但从头开发新的 PLMeAE 系统却极具挑战性,因为需要合成生物学、计算机科学以及实验室自动化和机器人技术交叉领域的专业知识。
此外,建立新的自动化生物工厂成本高昂。为了克服这些挑战,必须促进不同学科研究人员之间的合作,并通过人工智能和实验室自动化的发展培养下一代合成生物学研究人员。
未来,研究人员将能够在最少的人为干预下高效地进行蛋白质工程。
论文链接:https://www.nature.com/articles/s41467-025-56751-8