编辑 | 萝卜皮
当下,卵白质计划深度生成模型的快速进展主要集中在具有大量数据的小卵白质上。这些模型在自然序列有限的大卵白上表现不佳,例如腺病毒和腺相关病毒的衣壳卵白,它们是基因治疗的常见递送载体。生成分解病毒载体血清型可以克服大多数基因治疗接受者表现出的强大的事后消失的免疫反应。
多伦多大学的研讨人员提出了一种变异自动编码器(ProteinVAE),它可以生成分解病毒载体血清型,而无需事后消失的中和抗体的表位。将事后训练的卵白质语言模型纳入编码器中以提高数据效率,并使用基于反卷积的上采样从事解码以避免长卵白质序列生成中出现的简并重复。
ProteinVAE 是一个紧凑的生成模型,只有 1240 万个参数,并且在有限的自然序列上从事了有效的训练。生成的病毒卵白序列用于产生具有热力学稳定性和病毒组装能力的结构,与自然载体对应物无法区分。
该模型可用于生成广泛的分解血清型序列,而无需针对人群中事后消失的中和抗体的表位,从而有效解决基因治疗的主要挑战之一。它可以更广泛地用于生成不同类型的病毒载体,以及任何大型的、有治疗价值的卵白质,而可用数据很少。
该研讨以「Variational autoencoder for design of synthetic viral vector serotypes」为题,于 2024 年 1 月 23 日发布在《Nature Machine Intelligence》。
「基因疗法有着巨大的前景,但人体事后消失的对病毒载体的免疫反应极大地阻碍了其应用。我们的研讨集中在六邻体上,这是腺病毒载体中的一种基本卵白质,如果不考虑免疫问题,六邻体在基因治疗方面具有巨大的潜力。」多伦多大学应用科学与工程学院生物医学工程研讨所助理教授 Michael Garton 说,「血清型特异性抗体引发的免疫反应对这些载体到达正确的目标构成了重大障碍;这可能导致功效降低和严重的副作用。」
为了解决这个问题,Garton 的实验室使用人工智能来定制计划与自然序列不同的六邻体变体。
该研讨的主要作者、博士生 Suyue Lyu 表示:「我们希望计划出一种与所有人类变异都相距甚远的东西,并且推而广之,免疫系统无法识别。」
科学家假设机器学习可用于生成显著不同的六邻体卵白,而不影响卵白质折叠、颗粒组装或细胞转导功能。在最新的研讨中,Garton 实验室的研讨人员提出了一种生成模型,能够计划从未被动物或人类免疫系统监测过的分解 AdV 载体血清型,因此预计可以避免事后消失的 AdV 免疫。
近期,科学家开发了用于从头卵白质计划的深度学习模型。然而,这些模型是在更大的数据集上从事训练的。例如,ProteinGAN 是第一个专为卵白质序列生成而计划的生成对抗网络 (GAN) 模型,包含 6000 万个可训练参数,并针对 16,706 个独特的苹果酸脱氢酶序列从事了训练。
目前已知的人类腺病毒仅有 88 种血清型,可用的独特六邻体序列的数量仅限于 711 个独特的全长序列(UniprotKB 数据库)。由于可用训练数据有限,参数较多的模型容易出现过拟合,较小的模型可能更合适。六邻体序列平均长度为 938 个氨基酸,表明在较长距离上残基间依赖性的可能性很高。
之前的工作还没有报道过生成类似长度的序列。这与小数据集相结合,需要开发一个可以有效训练的小型但富有表现力的模型。为了解决这个问题,使用了用于氨基酸级嵌入的预训练卵白质语言模型,允许在大型卵白质数据库上转移预训练模型学到的知识。
使用变分自动编码器(VAE)框架来获得信息丰富且结构化的潜在空间,从而将离散的卵白质序列空间转换为连续的空间,以便于采样和操作。编码器中使用了特殊的瓶颈注意模块,将由预训练模型生成的高质量氨基酸级嵌入映射到潜在空间。基于非自回归反卷积的解码器被计划用于从潜在变量重建序列。
图示:ProteinVAE 结构。(来源:论文)
这个模型,Lyu 和 Garton 称它为 ProteinVAE,只需 1240 万个参数就能生成高质量、结构稳定的六邻体序列。中和抗体可及的六邻体表面与自然六邻体的不同之处在于,它们可以被归类为新的血清型,研讨人员认为它们可以避免人体事后消失的免疫力。
图示:与自然六邻体比较序列和结构特征。(来源:论文)
虽然计划紧凑,ProteinVAE 仍表现出与更大的可用模型相当的生成能力。
「我们的模型利用事后训练的卵白质语言模型,在小型数据集上从事高效学习。我们还结合了许多定制的工程方法,使模型适合生成长卵白质。」Lyu 说,并补充说 ProteinVAE 被有意计划为轻量级。
Lyu 表示:「与其他需要大量计算资源来计划长卵白质的较大模型不同,ProteinVAE 支持在任何标准 GPU 上从事快速训练和推理。此功能可以使模型对其他学术实验室更加友好。我们的人工智能模型经过分子模拟验证,证明能够改变很大一部分卵白质表面,从而有可能逃避免疫反应。」
Lyu 解释说,下一步是在湿实验室中从事实验测试。
Garton 认为,人工智能模型的用途可以超越基因治疗卵白质计划,并且还可能扩展到支持其他疾病病例的卵白质计划。
「这项工作表明,我们有可能利用生成人工智能计划新的亚种甚至物种的生物实体。」他说,「这些实体具有可用于新型医学治疗的治疗价值。」
论文链接:https://www.nature.com/articles/s42256-023-00787-2
相关报道:https://phys.org/news/2024-01-ai-proteins-gene-therapy.html