制药新工具、有望规避免疫反应，多伦多大学团队用AI框架重新设计参与基因治疗的关键蛋白质

编辑 | 萝卜皮当下，蛋白质设计深度生成模型的快速进展主要集中在具有大量数据的小蛋白质上。这些模型在天然序列有限的大蛋白上表现不佳，例如腺病毒和腺相关病毒的衣壳蛋白，它们是基因治疗的常见递送载体。生成合成病毒载体血清型可以克服大多数基因治疗接受者表现出的强大的预先存在的免疫反应。多伦多大学的研究人员提出了一种变异自动编码器（ProteinVAE），它可以生成合成病毒载体血清型，而无需预先存在的中和抗体的表位。将预先训练的蛋白质语言模型纳入编码器中以提高数据效率，并使用基于反卷积的上采样进行解码以避免长蛋白质序列生成

编辑 | 萝卜皮

当下，蛋白质设计深度生成模型的快速进展主要集中在具有大量数据的小蛋白质上。这些模型在天然序列有限的大蛋白上表现不佳，例如腺病毒和腺相关病毒的衣壳蛋白，它们是基因治疗的常见递送载体。生成合成病毒载体血清型可以克服大多数基因治疗接受者表现出的强大的预先存在的免疫反应。

多伦多大学的研究人员提出了一种变异自动编码器（ProteinVAE），它可以生成合成病毒载体血清型，而无需预先存在的中和抗体的表位。将预先训练的蛋白质语言模型纳入编码器中以提高数据效率，并使用基于反卷积的上采样进行解码以避免长蛋白质序列生成中出现的简并重复。

ProteinVAE 是一个紧凑的生成模型，只有 1240 万个参数，并且在有限的自然序列上进行了有效的训练。生成的病毒蛋白序列用于产生具有热力学稳定性和病毒组装能力的结构，与天然载体对应物无法区分。

该模型可用于生成广泛的合成血清型序列，而无需针对人群中预先存在的中和抗体的表位，从而有效解决基因治疗的主要挑战之一。它可以更广泛地用于生成不同类型的病毒载体，以及任何大型的、有治疗价值的蛋白质，而可用数据很少。

该研究以「Variational autoencoder for design of synthetic viral vector serotypes」为题，于 2024 年 1 月 23 日发布在《Nature Machine Intelligence》。

「基因疗法有着巨大的前景，但人体预先存在的对病毒载体的免疫反应极大地阻碍了其应用。我们的研究集中在六邻体上，这是腺病毒载体中的一种基本蛋白质，如果不考虑免疫问题，六邻体在基因治疗方面具有巨大的潜力。」多伦多大学应用科学与工程学院生物医学工程研究所助理教授 Michael Garton 说，「血清型特异性抗体引发的免疫反应对这些载体到达正确的目标构成了重大障碍；这可能导致功效降低和严重的副作用。」

为了解决这个问题，Garton 的实验室使用人工智能来定制设计与自然序列不同的六邻体变体。

该研究的主要作者、博士生 Suyue Lyu 表示：「我们希望设计出一种与所有人类变异都相距甚远的东西，并且推而广之，免疫系统无法识别。」

科学家假设机器学习可用于生成显著不同的六邻体蛋白，而不影响蛋白质折叠、颗粒组装或细胞转导功能。在最新的研究中，Garton 实验室的研究人员提出了一种生成模型，能够设计从未被动物或人类免疫系统监测过的合成 AdV 载体血清型，因此预计可以避免预先存在的 AdV 免疫。

近期，科学家开发了用于从头蛋白质设计的深度学习模型。然而，这些模型是在更大的数据集上进行训练的。例如，ProteinGAN 是第一个专为蛋白质序列生成而设计的生成对抗网络 (GAN) 模型，包含 6000 万个可训练参数，并针对 16,706 个独特的苹果酸脱氢酶序列进行了训练。

目前已知的人类腺病毒仅有 88 种血清型，可用的独特六邻体序列的数量仅限于 711 个独特的全长序列（UniprotKB 数据库）。由于可用训练数据有限，参数较多的模型容易出现过拟合，较小的模型可能更合适。六邻体序列平均长度为 938 个氨基酸，表明在较长距离上残基间依赖性的可能性很高。

之前的工作还没有报道过生成类似长度的序列。这与小数据集相结合，需要开发一个可以有效训练的小型但富有表现力的模型。为了解决这个问题，使用了用于氨基酸级嵌入的预训练蛋白质语言模型，允许在大型蛋白质数据库上转移预训练模型学到的知识。

使用变分自动编码器（VAE）框架来获得信息丰富且结构化的潜在空间，从而将离散的蛋白质序列空间转换为连续的空间，以便于采样和操作。编码器中使用了特殊的瓶颈注意模块，将由预训练模型生成的高质量氨基酸级嵌入映射到潜在空间。基于非自回归反卷积的解码器被设计用于从潜在变量重建序列。

图示：ProteinVAE 结构。（来源：论文）

这个模型，Lyu 和 Garton 称它为 ProteinVAE，只需 1240 万个参数就能生成高质量、结构稳定的六邻体序列。中和抗体可及的六邻体表面与天然六邻体的不同之处在于，它们可以被归类为新的血清型，研究人员认为它们可以避免人体预先存在的免疫力。

图示：与天然六邻体比较序列和结构特征。（来源：论文）

虽然设计紧凑，ProteinVAE 仍表现出与更大的可用模型相当的生成能力。

「我们的模型利用预先训练的蛋白质语言模型，在小型数据集上进行高效学习。我们还结合了许多定制的工程方法，使模型适合生成长蛋白质。」Lyu 说，并补充说 ProteinVAE 被有意设计为轻量级。

Lyu 表示：「与其他需要大量计算资源来设计长蛋白质的较大模型不同，ProteinVAE 支持在任何标准 GPU 上进行快速训练和推理。此功能可以使模型对其他学术实验室更加友好。我们的人工智能模型经过分子模拟验证，证明能够改变很大一部分蛋白质表面，从而有可能逃避免疫反应。」

Lyu 解释说，下一步是在湿实验室中进行实验测试。

Garton 认为，人工智能模型的用途可以超越基因治疗蛋白质设计，并且还可能扩展到支持其他疾病病例的蛋白质设计。

「这项工作表明，我们有可能利用生成人工智能设计新的亚种甚至物种的生物实体。」他说，「这些实体具有可用于新型医学治疗的治疗价值。」

论文链接：https://www.nature.com/articles/s42256-023-00787-2

相关报道：https://phys.org/news/2024-01-ai-proteins-gene-therapy.html

制药新工具、有望规避免疫反应，多伦多大学团队用AI框架重新设计参与基因治疗的关键蛋白质

相关资讯

模拟5亿年的进化信息，首个同时推理蛋白质序列、结构和功能的生物学大模型

登Nature子刊，中科院计算所团队开发CarbonDesign，进行准确且稳健的蛋白质序列设计

MIT研究人员将Transformer与图神经网络结合，用于设计全新蛋白质