Nature子刊，快10倍，基于Transformer的逆向蛋白质序列设计方法

编辑 | 萝卜皮借助深度学习的进步，蛋白质设计和工程正以前所未有的速度发展。然而，目前的模型无法在设计过程中自然地考虑非蛋白质实体。在这里，瑞士洛桑联邦理工学院（EPFL）的研究人员提出了一种完全基于原子坐标和元素名称的几何 transformer 的深度学习方法，该方法可以根据不同分子环境所施加限制的主链支架，预测蛋白质序列。使用该方法，研究人员可以以高成功率生产出高热稳定性、催化活性的酶。这有望提高蛋白质设计流程的多功能性，以实现所需的功能。该研究以「Context-aware geometric deep l

编辑 | 萝卜皮

借助深度学习的进步，蛋白质设计和工程正以前所未有的速度发展。然而，目前的模型无法在设计过程中自然地考虑非蛋白质实体。

在这里，瑞士洛桑联邦理工学院（EPFL）的研究人员提出了一种完全基于原子坐标和元素名称的几何 transformer 的深度学习方法，该方法可以根据不同分子环境所施加限制的主链支架，预测蛋白质序列。

使用该方法，研究人员可以以高成功率生产出高热稳定性、催化活性的酶。这有望提高蛋白质设计流程的多功能性，以实现所需的功能。

该研究以「Context-aware geometric deep learning for protein sequence design」为题，于 2024 年 7 月 25 日发布在《Nature Communications》。

Nature子刊，快10倍，基于Transformer的逆向蛋白质序列设计方法

设计蛋白质以实现功能性任务是一个具有重大生物学、医学、生物技术和材料科学影响的挑战。一个关键应用领域是蛋白质治疗药物的设计，通过定制蛋白质来精确针对特定疾病，可能比小分子药物更具竞争力。这种方法可能革新许多健康问题的治疗方式，从自身免疫疾病到癌症，提供更有效和个性化的治疗方案。

此外，设计酶功能也是蛋白质设计中的另一个重要挑战。酶作为天然催化剂在生物过程中起关键作用。通过设计新酶或改造现有酶，可以创造出促进自然界中罕见或不存在反应的催化剂。这对多个行业有深远影响，包括制药业和环保技术，例如合成复杂药物分子或分解污染物和塑料。

深度学习方法显著加速了蛋白质设计的成功率和多样性。然而，虽然目前的蛋白质设计模型可以处理多条蛋白质链，但在处理非蛋白质实体时表现较差，限制了其应用范围。

为解决这一问题，EPFL 的研究团队曾经引入了一种深度学习模型——Protein Structure Transformer（PeSTo），一种几何 transformer 架构，作用于原子点云。

PeSTo 结合了 transformer 注意力机制，利用标量和矢量状态表示原子，可以预测几乎任何分子与蛋白质界面的相互作用，包括蛋白质、核酸、脂类、离子、小配体、辅因子或碳水化合物。

在最新的工作中，该团队利用该模型的独特功能，并引入了基于 PeSTo 的蛋白质序列生成器模型 CARBonAra（Context-aware Amino acid Recovery from Backbone Atoms and heteroatoms）。

CARBonAra 基于 PDB 中可用的结构数据进行独特训练，可预测给定主链支架所有位置的氨基酸置信度，这些主链支架可以单独提供，也可以与任何种类和数量的有助于推动序列设计的分子复合。

Nature子刊，快10倍，基于Transformer的逆向蛋白质序列设计方法

图示：CARBonAra的架构以及与 SOTA 方法的比较。（来源：论文）

CARBonAra 的组成与性能

CARBonAra 使用由几何 transformer 组成的深度学习模型，预测从输入主干支架中在蛋白质序列的每个位置找到给定氨基酸的可能性。CARBonAra 将主链原子（Cα、C、N、O）的坐标和元素作为输入，并使用理想的键角和键长添加虚拟 Cβ 原子。几何形状使用每个原子之间的距离和归一化相对位移矢量来描述。

几何 transformer 操作对所有相邻原子的相互作用进行编码，并使用 transformer 处理标量和矢量信息并更新每个原子的状态。最后，通过将原子状态从原子级别汇集到残基级别，研究人员训练模型以位置特定评分矩阵的形式预测蛋白质序列每个位置的氨基酸置信度。

实际上，这些置信度可以被解释为并映射到概率中，通过表征在给定每种氨基酸类型的预测置信度的情况下正确预测的概率。

Nature子刊，快10倍，基于Transformer的逆向蛋白质序列设计方法

图示：预测置信分析。（来源：论文）

与其他模型一样，CARBonAra 通过使用独热编码将特定氨基酸的先前序列信息印入主链原子来支持自回归预测。

最重要的是，CARBonAra 继承了 PeSTo 仅使用元素名称和原子坐标的能力，无需进行大量参数化，从而可以轻松适应各种场景。

因此，CARBonAra 可以解析和处理正在设计的蛋白质主链附近的任何分子实体，其中包括其他蛋白质、小分子、核酸、脂质、离子和水分子等一系列输入。

数据集

利用 CARBonAra 固有的灵活性，研究人员能够将 RCSB PDB 中的所有生物组装体纳入他们的训练数据集。

这包括与其他分子实体（如离子、配体、核酸等）复合的蛋白质。训练数据集由大约 370,000 个亚基组成，验证数据集中还使用了另外 100,000 个亚基，所有这些亚基均来自 RCSB PDB 生物组装体，并被注释为最佳可能。

与以前建立的方法相比，遵循稍微更严格的协议，测试数据集由大约 70,000 个亚基组成，与没有共享 CATH 域的训练集不同，并且在低于 30% 的序列同一性下进行过滤。

该选择标准确保了测试的稳健性，因为它排除了训练数据集中存在的类似折叠和序列。

Nature子刊，快10倍，基于Transformer的逆向蛋白质序列设计方法

图示：在 GPU 上运行时分析。（来源：论文）

对于从不含非蛋白质分子的骨架结构中分离蛋白质或蛋白质复合物的序列设计，CARBonAra 的表现与 ProteinMPNN 和 ESM-IF1 等最先进的序列预测方法相当，并且计算成本具有竞争力（在 GPU 上比 ProteinMPNN 快约 3 倍，比 ESM-IF1 快 10 倍）。

从主链结构重建蛋白质序列

该方法在从主链结构重建蛋白质序列时，蛋白质单体设计的序列恢复率中值为 51.3%，二聚体设计的序列恢复率中值为 56.0%。尽管恢复率相似，但三种方法的最佳序列之间的序列同一性中值为 54% 至 58% 不等。

此外，研究人员观察到 CARBonAra 可以生成高质量序列，当在单序列模式下使用 AlphaFold 预测时，这些序列可以按预期折叠，TM 分数高于 0.9。

CARBonAra 在蛋白质核心处学习了更紧密的氨基酸包装，从而导致更高的回收率并反映了对典型的埋藏氨基酸取代的较低耐受性，同时允许蛋白质表面具有更高的可变性，除非提供额外的功能或结构限制。

Nature子刊，快10倍，基于Transformer的逆向蛋白质序列设计方法

图示：埋藏于表面的氨基酸的分析。（来源：论文）

从主干支架进行序列预测的方法主要在具有理想主干几何形状的实验数据上进行训练，当应用于生成的主干时会导致性能下降。在训练过程中向几何图形添加噪声可以缓解此问题。

研究人员通过将 CARBonAra 应用于分子动力学 (MD) 模拟的结构轨迹来表征该方法的稳健性。由于主链构象变化和先前显示低恢复率的病例增加，序列恢复率（53±10%）与一致预测（54±7%）没有显著下降。

同时，研究人员观察到每个位置预测的可能的氨基酸数量普遍减少，这表明探索构象空间正在限制序列空间，从而使得能够设计有针对性的结构构象。

Nature子刊，快10倍，基于Transformer的逆向蛋白质序列设计方法

图示：主链构象对预测的影响。（来源：论文）

具有超出蛋白质设计本身的意义

研究人员在一个主力系统（即 TEM-1 丝氨酸 β-内酰胺酶）上进行了实验，展示了 CARBonAra 如何处理酶工程的挑战，设计出在高温下折叠并保持催化活性的实际蛋白质。此外，研究人员还探索了从 CARBonAra 的输出中采样蛋白质序列空间的重点策略。

由于不能确定由得分最高的氨基酸产生的蛋白质序列是否具有功能性，因此需要采用取样策略来产生可以在体外重组表达且稳定且具有功能的蛋白质。

目前为止，这尚未经过彻底测试。该团队在此表明，适当的采样策略不仅可以生成丰富的信息来产生起作用的蛋白质，而且还可以生成反映在自然序列中观察到的或通过诱变和选择实验采样的自然变异的合成多序列比对。

这具有超出蛋白质设计本身的意义，特别是为了解蛋白质在生物物理一致的蛋白质进化模型框架内如何进化打开了一扇窗户。

从根本上来说，提高计算设计的成功率对于真正掌握这一领域非常重要，更实际的是，可以在实验室中尝试实际表达和纯化时降低成本。

超高成功率

现在基于人工智能的方法开始稳定下来，这成为一个重要的讨论点。不同的方法和报告显示的成功率差异很大，但通常不清楚如何评估每种方法。

Chroma 进行了非常保守的评估，将其成功率设定为 3% 左右，而 RoseTTAFold/ProteinMPNN 论文报告称几种蛋白质的平均成功率为 15%。

使用该研究报告的 TEM-1 β-内酰胺酶设计，成功率达到 40%。同样，TIM 桶和 NTF2 折叠的成功率也高达 40-55%，远高于之前的平均 15%。

适合提高蛋白热稳定性

除了直接应用于设计新蛋白质和调整蛋白质功能之外，CARBonAra 似乎还非常适合提高热稳定性，就像其他蛋白质设计方法一样，它们也能产生坚固、高热稳定性的蛋白质。

这一观察结果揭示的一个有趣方面与用于稳定制造和工业过程的酶的设计序列的知识产权有关：通常，设计的酶会以覆盖较小但相当大的序列相似性范围的方式受到保护。

从历史上看，这已经足够全面了；然而，包括 CARBonAra 在内的现代蛋白质设计方法可以设计出相似性低得多的蛋白质，这些蛋白质可以保留功能并高度稳定。

结语

展望未来，与其他蛋白质设计方法相比，CARBonAra 具有一些优势，主要与其仅基于元素名称和坐标的内部工作有关，不需要任何进一步的参数化或中间计算。

因此，CARBonAra 看起来比其他替代方案更灵活。因为它可以从本质上解析任何类型的分子系统，所以可以对其他类型的生物分子（例如核酸、小分子、离子，甚至水）或生物组合中未发现的分子（如材料和表面）进行训练，前提是有足够的数据。

总之，CARBonAra 独特地基于结构数据，是一种概念上不同的蛋白质序列预测和设计方法，具有解决分子设计和合成生物学未来挑战所需的额外灵活性。

论文链接：https://www.nature.com/articles/s41467-024-50571-y

{{userData.name}}已认证

Nature子刊，快10倍，基于Transformer的逆向蛋白质序列设计方法

一文看尽LLM对齐技术：RLHF、RLAIF、PPO、DPO……

准确率达60.8%，浙大基于Transformer的化学逆合成预测模型，登Nature子刊

刚刚，AI颠覆物理模拟：一句话精准仿真，学术圈半壁江山联手耗时24个月研究成果

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

2024年AI 编程现在可以做到什么程度？

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！

抢跑OpenAI！谷歌Gemini 2.0震撼登场：全面转向Agent，多模态输入输出，免费随便玩