上交大洪亮课题组&上海AI实验室团队发布FSFP,基于语言模型的蛋白质功能小样本预测方法,登Nature子刊

编辑 | ScienceAI近日,上海交通大学自然科学研究院/物理天文学院/张江高研院/药学院洪亮教授课题组,联合上海人工智能实验室青年研究员谈攀,在蛋白质突变-性质预测上取得重要突破。该工作采用全新的训练策略,在使用极少湿实验数据的情况下,极大地提高了传统蛋白质预训练大模型在突变-性质预测的效果。该研究成果以《Enhancing the efficiency of protein language models with minimal wet-lab data through few-shot learning

图片

编辑 | ScienceAI

近日,上海交通大学自然科学研究院/物理天文学院/张江高研院/药学院洪亮教授课题组,联合上海人工智能实验室青年研究员谈攀,在蛋白质突变-性质预测上取得重要突破。

该工作采用全新的训练策略,在使用极少湿实验数据的情况下,极大地提高了传统蛋白质预训练大模型在突变-性质预测的效果。

该研究成果以《Enhancing the efficiency of protein language models with minimal wet-lab data through few-shot learning》为题,于 2024 年 7 月 2 日发表在《Nature Communications》上。

图片

论文链接:https://www.nature.com/articles/s41467-024-49798-6

研究背景

酶工程或者蛋白质工程是要对蛋白质做突变并筛选得到性质更优的蛋白质产品。传统的湿实验方法是类似于贪婪算法式的搜索方法,需要进行多轮实验迭代并反复进行实验验证。

这些湿实验方法需要耗费大量的人力和时间,做出一个满足需求的蛋白质产品往往需要数年的时间,而且湿实验方法能够筛选遍历的蛋白质突变序列库非常有限。

目前有一些深度学习的方法来加速这个蛋白质突变改造进程,但是这些深度学习模型想要得到很高的准确率的话,需要利用成千上万的蛋白质突变数据来训练模型。而这个大规模高质量的突变数据的获取,反过来也是传统湿实验的巨大门槛。

因而,行业内急需一种在不需要大量湿实验数据情况下,依然能够对蛋白质突变-功能做出准确预测的方法。

目前的蛋白质无监督预训练模型能在完全没有湿实验的情况,以零样本(zero-shot)预测蛋白质突变-性质的变化,但是这种预测方法往往精度较低,且上述无监督模型无法直接利用有限的湿实验数据对上面无监督模型进行微调。

研究方法

在本研究工作中,我们提出了一种解决方法(FSFP),综合利用元学习,排序学习和参数高效的微调方法,在只利用任意几十个湿实验数据下便可以训练蛋白质预训练模型,并大幅提高对蛋白质突变-性质预测的效果。

在包含87个高通量突变数据集 ProteinGym的测试中,FSFP方法先利用蛋白质预训练模型评估目标蛋白质与ProteinGym中的蛋白质的相似度,并从ProteinGym中取出与目标蛋白质最相近的两个蛋白质数据集作为元学习的两个辅助任务,同时利用GEMME对目标蛋白质的打分数据作为第三个辅助任务。

最后利用排序学习损失函数和Lora训练方法,在极少量(几十个)的真实湿实验数据上训练蛋白质预训练模型。

我们的测试结果表明,即便是在原始的蛋白质预训练模型对突变-性质预测的 spearman相关性低于0.1的情况下,FSFP方法只利用任意20个湿实验数据训练模型,也能将上述的预测相关性大幅提高到0.5以上。

图片

图示:FSFP 概述。(来源:论文)

研究结果

同时,为了研究FSFP的有效性。我们在一个具体的蛋白质Phi29改造案例中进行了湿实验验证,FSFP在只使用20个湿实验数据训练模型的情况下,能够将原始蛋白质预训练模型ESM-1v的top-20的单点突变预测阳性率提高25%,并且能找到将近10个全新的阳性单点突变。

图片

图示:使用 FSFP 工程化 Phi29。(来源:论文)

总结

在本工作中,作者提出了一个基于蛋白质预训练模型的全新的微调训练方法FSFP。

FSFP综合利用元学习,排序学习以及高效参数微调技术,能在只利用20个随机湿实验数据的情况下,高效训练蛋白质预训练模型,且能大幅提高模型的单点突变预测阳性率。

上述结果表明,FSFP方法对解决现在蛋白质工程的高实验周期,降低实验成本具有重要意义。

作者信息

自然科学研究院/物理与天文学院/张江高等研究院洪亮教授,和上海人工智能实验室青年研究员谈攀为通讯作者。

上海交大物理天文学院博士后周子宜,硕士生张良,博士生余元玺,以及生命科学技术学院博士生吴邦昊为共同第一作者。

相关资讯

加速蛋白质工程,微软开发蛋白突变效应预测AI框架µFormer

编辑 | KX蛋白质工程是合成生物学领域的重要研究方向之一。近年来,AI 辅助的蛋白质工程逐渐发展成为一种高效的蛋白质分子设计新策略。近日,微软研究院科学智能中心的研究人员提出了深度学习框架 µFormer,其将预训练的蛋白质语言模型与定制设计的评分模块相结合,从而预测蛋白质的突变效应。µFormer 在预测高阶突变体、建模上位(epistatic)相互作用和处理插入方面,实现了最先进的性能。通过将 µFormer 与强化学习框架相结合,可以高效探索广阔的突变空间,涵盖数万亿个突变候选物,来设计活性增强的蛋白质变体

用基于结构的突变偏好进行蛋白质设计,加州大学、MIT、哈佛医学院团队开发了一种无监督方法

编辑 | 萝卜皮当前最新的蛋白质设计方法,往往依赖于具有多达数百个数百万个参数的大型神经网络,同时并不清楚哪些残基依赖性对于确定蛋白质功能至关重要。加州大学(University of California)、麻省理工学院(Massachusetts Institute of Technology)以及哈佛医学院(Harvard Medical School)的研究人员表明:在不考虑突变相互作用的情况下,单个残基的氨基酸偏好,可以解释 8 个数据集中的大部分甚至有时几乎所有的组合突变效应 (R^2 ~ 78-98%

精准预测RNA可变剪接,浙大多模态深度学习模型SpTransformer登Nature子刊

组织特异性可变剪接分析算法 SpTransformer 的概念图。 (来源:浙大)作者 | 浙江大学良渚实验室沈宁/刘志红课题组编辑 | ScienceAIRNA 可变剪接(Alternative splicing)是基因转录后一种重要的调控机制,也是生物体多样性和蛋白质多功能性的重要来源之一。 人类约 90% 以上的基因存在可变剪接,不同组织与细胞类型中可变剪接的多元性促进了细胞表型的多样性。