编辑 | 萝卜皮
机器学习 (ML) 正在改变计算蛋白质设计的世界,数据驱动方法在实验成功率方面超越了基于生物物理的方法。然而,它们通常被报告为案例研究,缺乏整合和标准化,因此很难进行客观比较。
在最新的研究中,德国莱比锡大学(Leipzig University)的跨学科研究团队在 Rosetta 软件框架内建立了一个精简且多样化的工具箱,用于预测氨基酸概率的方法,以便对这些模型进行并排比较。随后,现有的蛋白质适应度景观被用于在现实蛋白质设计环境中对新型 ML 方法进行基准测试。
这种创新策略可应用于开发新疗法,例如抗体和疫苗,包括用于大流行防范的疗法。「我们迫切需要制定此类模型的描述和可用性标准。」该研究的负责人之一 Clara Schoeder 教授表示,「我们的研究为实现这一目标做出了重要贡献。」
该团队专注于蛋白质设计的传统问题:采样和评分。他们发现,机器学习方法更善于清除采样空间中的有害突变。然而,未经模型微调的评分结果与使用 Rosetta 的评分相比并没有明显改善。得出的结论是,机器学习现在补充了蛋白质设计中的生物物理方法,而不是替代它们。
该研究以「Self-supervised machine learning methods for protein design improve sampling but not the identification of high-fitness variants」为题,于 2025 年 2 月 12 日发布在《Science Advances》。
蛋白质的计算设计与工程是科学界的长期目标,旨在快速生成新型蛋白质药物和材料。传统方法如 Rosetta 通过序列突变、结构预测和优化等工具成功设计了多种蛋白质,而 RosettaScripts 和 PyRosetta 框架进一步简化了协议开发。然而,蛋白质序列设计仍面临采样和评分两大核心问题。
近年来,ML 方法在蛋白质结构预测、序列设计和工程中取得突破,如 ProteinMPNN 和蛋白质语言模型(PLMs)在纳米材料设计和抗体优化中表现出色。尽管如此,ML 模型是否优于经典生物物理设计算法仍存疑,且复杂的多软件管道易导致技术债务和可重复性问题。
为此,科学家通过将 ESM PLM 家族嵌入 Rosetta,利用 C++ Tensorflow 和 LibTorch 库优化接口,以提升模型的可比性和可移植性。
在新的研究中,莱比锡大学的研究团队测试了新型自监督机器学习方法是否优于 Rosetta 等基于生物物理的方法,并确定了设计项目的最佳实践。
图示:Rosetta 中的 ML 支持框架。(来源:论文)
为此,研究人员利用现有的蛋白质适应度景观数据集对这些工具在常见任务(如提高蛋白质结合亲和力或酶活性)上进行基准测试,评估它们在零样本方法中无需进一步下游训练即可泛化的能力。蛋白质工程活动的两个主要目标是生成候选物(采样突变)然后对这些候选物进行排序(评分突变)。
因此,在大规模诱变数据集上训练预测模型(称为「预言机」),以分析 16 种不同方案的采样和评分行为。简单讲,他们发现,尽管 ML 方法在清除序列空间中的有害突变方面表现更好,但对得到的候选序列进行评分和排序仍然是蛋白质设计中的一项挑战。
图示:采样突变以提高 GB1 的适应度。(来源:论文)
「我们的研究结果表明,没有任何一种人工智能模型或生物物理方法能够完美地解决所有设计问题。」该项目的负责人之一 Jens Meiler 解释道,「未来,我们将不得不仔细考虑将哪种模型用于哪种目的。我们的工作是朝着提高不同方法之间的可比性迈出的第一步。」
具体来说研究人员探索了自监督机器学习(ML)方法在蛋白质工程中的序列采样和评分性能。通过在大型蛋白质适应度数据集上训练 oracle 模型,研究人员发现数据驱动方法在限制序列空间至无害突变方面优于传统方法(如 Rosetta)。
然而,尽管这些方法能够采样高适应度序列,但其预测适应度值与实际值相关性较低,导致难以筛选出最佳候选序列进行实验验证。
这表明采样与评分之间存在紧密关联,且评分指标的不完整性可能影响结果。使用更精确的评分函数(如基于 AF2 的指标)可能部分缓解这一问题,但在复杂案例(如 emibetuzumab 设计)中效果有限。
图示:采样突变用于改善 avGFP 荧光。(来源:论文)
研究目标是找到自监督 ML 方法的最佳实践,以零样本方式设计高适应度蛋白质变体。结果显示,提高采样温度可增加多样性并扩展适应度分布,但未发现单一方法在所有测试用例中表现最优。
基于此,该团队提出两种策略:一是通过低温迭代采样生成少量高适应度变体,适合实验能力有限的情况;二是提高采样温度生成大量候选序列,适合高通量实验。
相比之下,事后使用计算机评分筛选大量变体的策略效果较差。此外,微调预训练模型在复杂功能(如酶活性)预测中显示出优势,而零样本方法在单点突变(如抗体设计)中表现较好,例如 ESM-2 能以 49.6% 的准确率预测种系突变。
图示:评估埃米贝妥珠单抗双重适应度景观的设计方法。(来源:论文)
「通过这一进展,我们可以快速轻松地将人工智能模型与传统方法结合起来,并将它们并列使用。」Meiler 教授解释道,「这大大简化了我们的工作,让我们能够充分利用过去 20 年来 Rosetta 开发的所有基础设施。」
「我们正在研究哪些方法可以可靠地提示可能产生疫苗候选物的氨基酸变化。」 Clara Schoeder 教授说。
该研究的局限性在于依赖计算机验证,且 oracle 模型较为简单,可能无法捕捉复杂突变关系。
未来研究可结合传统方法(如酶工程或抗体设计)进行比较,并探索监督式 ML 模型直接预测蛋白质适应度的潜力。
总体而言,ML 显著改善了序列采样,但评分和排序仍是挑战。不过,研究团队仍然乐观地认为人工智能和生物物理方法的结合将提高蛋白质设计的效率。
论文链接:https://www.science.org/doi/10.1126/sciadv.adr7338
相关报道:https://phys.org/news/2025-02-ai-biophysical-protein.html