编辑 | 2049
在生物系统中,蛋白质很少以单体形式发挥功能,它们通常需要组装成更高级的复合物。
这些复合物中,由多个相同蛋白质链通过非共价键相互作用形成的结构被称为同源寡聚体,它们的空间排布形成特定的对称性,这对蛋白质的稳定性、折叠和功能至关重要。
然而,从单条序列精确预测蛋白质可能形成的对称结构一直是一项挑战。
微软、华盛顿大学大卫·贝克(David Baker)和 MIT 等多家机构的研究团队联合开发了一种名为 Seq2Symm 的解决方案,通过微调蛋白质语言模型 ESM2,达到每小时约 80,000 个蛋白质的处理能力,准确率超越现有方法。
该研究以「Rapid and accurate prediction of protein homo-oligomer symmetry using Seq2Symm」为题,于 2025 年 2 月 27 日发布在《Nature Communications》上。
论文链接:https://www.nature.com/articles/s41467-025-57148-3
代码链接:https://github.com/microsoft/seq2symm
研究背景
目前,蛋白质数据库(PDB)中的寡聚体状态注释主要依赖 PISA 算法的预测,并由提交结构的研究人员补充。
尽管 PISA 被认为具有较高的准确性,但这种方法需要依赖实验确定的结构来提取组装信息,并推断最可能的寡聚体状态。不依赖实验数据的预测方法通常依靠同源模板搜索(如 HHSearch)或基于对接的方法模拟复合物。
近期,随着 AlphaFold 和 RoseTTAFold 等蛋白质结构预测方法的发展,已经能够在蛋白组水平上预测同源二聚体,甚至在某些情况下预测更高级的寡聚体组装。
然而,使用这些方法进行寡聚体状态预测面临显著的计算挑战,需要对每个潜在的链复制数量运行推理来评分各种模型,且通常仅限于具有高质量多序列比对(MSA)的蛋白质。
Seq2Symm:基于 ESM2 的精准预测模型
研究团队通过微调多种蛋白质基础模型(protein foundation models,pFMs),包括 ESM2、ESM-MSA 和 RoseTTAFold2,开发了一种能够准确预测同源寡聚体对称性的新方法。
其中表现最佳的模型名为 Seq2Symm,它利用 ESM2 模型,仅需一条蛋白质序列作为输入,就能在三个独立测试集上实现平均 0.47、0.44 和 0.49 的 PR 曲线下面积(AUC-PR),远超基于模板的搜索方法(平均 AUC-PR 仅为 0.24、0.24 和 0.25)。
Seq2Symm 采用了一种简单而高效的架构(如下图所示):以蛋白质的氨基酸序列作为输入,通过 ESM2 这一蛋白质基础模型进行处理,再通过一个分类器头部模块预测蛋白质可能形成的对称结构。
研究人员尝试了多种分类器头部架构,最终确定使用 RoBERTa 语言建模头并配合边际损失函数的方案表现最佳。模型的输出可以直接用于引导 AlphaFold2-multimer 等结构预测算法,生成原子精度的同源寡聚体结构模型。
图示:蛋白质基础模型可以通过微调来预测蛋白质的同源寡聚体对称性。(来源:论文)
性能对比与优势分析
研究人员对不同方法进行了全面评估,结果显示 Seq2Symm 在各个测试集上均明显优于其他方法。
与基于模板的 HHSearch 方法相比,Seq2Symm 在预测二面角对称性、高阶环状对称性、螺旋对称性和二十面体对称性方面表现出显著优势。
通过分析混淆矩阵(下图 c),研究人员发现 Seq2Symm 较少过度预测多数类(C1 和 C2),能够更准确地识别各种复杂的对称类型。
图示:蛋白质基础模型比当前的基于模板的方法更准确地预测同源寡聚体对称性。(来源:论文)
值得注意的是,相比使用多序列比对(MSA)的模型,基于单序列的模型反而表现更好。
研究人员分析了这一现象,发现即使属于同一蛋白质家族的蛋白质也可能具有不同的同源寡聚体对称性。
例如,蛋白质家族 PF00072 中的蛋白质可以形成 C6、C2、D2、T、H、D3 等不同对称结构。这种多样性可能导致在 MSA 中引入的共进化信号反而成为干扰因素。
图示:微调蛋白质基础模型提高了同源寡聚体对称性和四级结构预测。(来源:论文)
规模应用与计算效率
Seq2Symm 的一个显著优势是其预测速度,可达约每小时 80,000 个蛋白质,这使它能够在蛋白组规模上进行注释。
研究团队将 Seq2Symm 应用于五个生物体的蛋白组(Pyrococcus furiosus、大肠杆菌、酿酒酵母、人类和 Exaiptasia pallida)以及约 350 万条未标记的蛋白质序列。
在蛋白组分析中,研究人员发现高阶对称性在简单生物体(P. furiosus 和大肠杆菌)和复杂生物体(酵母、人类、E. pallida)之间的分布存在相似性,但在具有螺旋(H)、八面体(O)和二十面体(I)对称性的蛋白质中存在例外。
同时发现,约 20% 的 P. furiosus 和大肠杆菌蛋白质具有多种对称性,而酵母和人类中这一比例约为 13%。
图示:Seq2Symm 的快速预测使得在多个蛋白质组中大规模注释同源寡聚体对称性成为可能。(来源:论文)
此外,Seq2Symm 与 AlphaFold2-multimer 结合使用,能够绕过传统的穷举搜索方法,直接预测单一的同源寡聚体结构。
这种方法在计算效率上提供了显著优势,处理一个 C5 对称蛋白质的时间大幅减少。
图示:大规模预测揭示了不同生物界中的模式。(来源:论文)
未来展望与挑战
尽管 Seq2Symm 在预测同源寡聚体对称性方面取得了显著进展,但仍面临模型在预测概率为 0.5-0.7 的混淆区域内错误率高,以及数据集中标签噪声等挑战。
未来改进方向包括:调整损失函数实现更精细的错误惩罚、整合蛋白质单链结构作为输入、直接预测粗粒度对称性以及同时预测对称类型和四级状态。
即便如此,Seq2Symm 当前已能加速同源寡聚体结构模型构建和蛋白组规模的对称群注释,为蛋白质研究领域提供了宝贵工具,将在蛋白组学研究和跨物种比较分析中发挥重要作用。