用于抗体设想的深度生成蛋白谈话模型

编辑 | 萝卜皮用于医治运用的单克隆抗体的发现和优化依赖于大型序列库，但受到低溶解度、低热稳定性、高聚集和高免疫原性等可开发性问题的阻碍。在数百万个蛋白质序列上训练的生成谈话模型是按需生成逼真、多样化序列的强大工具。约翰霍普金斯大学的科学家和工程师团队提出了免疫球蛋白谈话模型 (IgLM)，这是一种深度生成谈话模型，用于通过重新设想可变长度的抗体序列跨度来创建分解库。IgLM 将抗体设想制定为基于自然谈话文本添补的自返回序列生成任务。该团队在 558M 抗体重链和轻链可变序列上训练 IgLM，以每个序列的链典型和来

用于抗体设想的深度生成蛋白谈话模型

编辑 | 萝卜皮

用于医治运用的单克隆抗体的发现和优化依赖于大型序列库，但受到低溶解度、低热稳定性、高聚集和高免疫原性等可开发性问题的阻碍。在数百万个蛋白质序列上训练的生成谈话模型是按需生成逼真、多样化序列的强大工具。

约翰霍普金斯大学的科学家和工程师团队提出了免疫球蛋白谈话模型 (IgLM)，这是一种深度生成谈话模型，用于通过重新设想可变长度的抗体序列跨度来创建分解库。IgLM 将抗体设想制定为基于自然谈话文本添补的自返回序列生成任务。

该团队在 558M 抗体重链和轻链可变序列上训练 IgLM，以每个序列的链典型和滥觞物种为条件。证实 IgLM 可以生成来自各种物种的全长重链和轻链序列，以及具有改进的可开发性配置文件的添补 CDR 循环库。IgLM 是一种强大的抗体设想工具，应可用于多种运用。

该研究以「Generative language modeling for antibody design」为题，于 2022 年 12 月 20 日发布在 bioRxiv 预印平台。

用于抗体设想的深度生成蛋白谈话模型

抗体因其多样性和以高特异性结合抗原的能力而在医治中变得流行。传统上，单克隆抗体 (mAb) 是使用杂交瘤技术获得的，这需要对动物从事免疫。1985 年，噬菌体展示技术的发展允许从大型抗体库中体外选择特异性、高亲和力的 mAb。尽管取得了这些进步，但源自展示技术的医治性 mAb 仍面临可开发性问题，例如表达差、溶解度低、热稳定性低和聚集度高。展示技术依赖于高质量和多样化的抗体库作为起点来分离更具开发性的高亲和力抗体。

分解抗体文库是通过将分解 DNA 引入抗体序列的区域来制备的，这些区域定义了互补决定区（CDR），允许人造抗原结合位点。然而，可能的分解抗体序列空间非常大（CDR 的 10 个位置多样化产生 20^10 ≈ 10^13 种可能的变体）。要发现具有高亲和力的抗体，必须构建数量级为 10^10–10^11 变体的大量分解文库，通常包含大量非功能性抗体。

最近的工作利用自然谈话处理方法，对结构数据不可用的大量原始蛋白质序列数据库从事无监督预训练。这些工作探索了各种预训练任务和下游模型运用。例如，ESM 系列模型（针对掩码谈话建模从事训练）已运用于表示学习、变异效应预测和蛋白质结构预测。自返回谈话建模是预训练的另一种范例，也已运用于蛋白质序列建模。这些模型已被证实可以生成不同的蛋白质序列，尽管在残基构成上存在显著差异，但它们通常采用自然折叠。在某些情况下，这些生成的序列甚至保留了与天然蛋白质相当的酶活性。自返回谈话模型也被证实是蛋白质适应性的强大零样本预测因子，在某些情况下，性能会随着模型规模的扩大而不断提高。

学界已有的模型仍有局限性

专门为抗体相关任务开发了另一套谈话模型。该领域的大部分先前工作都集中在观察抗体空间 (OAS) 数据库中序列的掩码谈话建模。

之前 Prihoda 团队开发了 Sapiens，这是一对用于重链和轻链掩码谈话建模的不同模型（每个模型具有 569K 参数）。Sapiens 模型分别在 20M 和 19M 重链和轻链上从事了训练，并被证实是抗体人源化的有效工具。Ruffolo 团队开发了 AntiBERTy，这是一种单一掩码谈话模型（26M 参数），在包含重链和轻链的 558M 序列语料库上从事训练。AntiBERTy 已运用于蛋白质结构预测的表示学习。Leem 团队开发了 AntiBERTa，这是一种在 67M 抗体序列（重抗体序列和轻抗体序列）的语料库上训练的单一掩码谈话模型（86M 参数）。AntiBERTa 的表示用于互补位预测。

Olsen 团队开发了 AbLang，这是一对在 14M 重链和 187K 轻链上训练的掩码谈话模型，用于序列恢复。对于序列生成，自返回生成模型已在抗体序列上从事训练并用于库设想。Akbar 团队训练了一个 LSTM 来自返回生成 CDR H3 环，并对它们结合抗原的潜力从事了计算机模拟研究。Shin 团队通过实验验证了一组具有生成的 CDR3 环的纳米抗体序列，与传统方法相比，尽管文库要小 1000 多倍，但在生存能力和结合发现方面显示出有希望的改进。

然而，由于该生成模型是单向的，因此不能用于直接重新设想序列内的 CDR3 环，而是必须从事过采样以生成与环后残基匹配的序列。

一种拥有新优势的新模型

在这里，约翰霍普金斯大学的科学家和工程师团队介绍了免疫球蛋白谈话模型（IgLM），这是一种生成谈话模型，它利用双向上下文来设想不同长度的抗体序列跨度，同时在大规模天然抗体数据集上从事训练。研究表明 IgLM 可以生成以链典型和滥觞物种为条件的全长抗体序列。此外，IgLM 可以使抗体上的环多样化，以生成高质量的文库，这些文库显示出有利的生物物理特性，同时类似于人类抗体。

用于抗体设想的深度生成蛋白谈话模型

图示：用于抗体序列生成的 IgLM 模型概述。（滥觞：论文）

在训练期间，研究人员为模型提供条件标签，指示抗体的链典型和滥觞物种，从而能够可控地生成所需典型的序列。

用于抗体序列生成的自返回谈话模型的并行工作已经在类似的天然抗体序列集上从事了训练，并探索了更大的模型尺寸。然而，像 ProGen2-OAS 这样的模型在抗体生成和设想方面的实用性有限，因为它们很难指导生成一定典型的序列（例如，物种或链典型）。IgLM 和 ProGen2-OAS 都利用提示策略来指导模型生成走向全长序列。

虽然这些策略在某些情况下可能有所帮助（特别是为了克服数据集的限制），但可能需要提供更多的残基来指导模型走向一定的序列典型（例如，人类与恒河猴重链）。相比之下，通过在模型训练中包含物种和链典型的调节信息，IgLM 能够在没有额外提示的情况下生成所需典型的序列。

用于抗体设想的深度生成蛋白谈话模型

图示：可控抗体序列生成。（滥觞：论文）

尽管如此，这增加 IgLM 等模型的容量可能会带来更好的序列添补性能（更低的困惑度）和评分（更好的似然估计），这是未来工作的一个有希望的方向。

IgLM 的主要创新是能够在抗体序列内的一定位置生成添补的残基跨度。与仅考虑残基前面的传统生成谈话模型相比，这使 IgLM 能够在要添补的区域的完整上下文中生成。研究人与通过为 49 种医治性抗体生成文库来证实添补的效用。研究发现 IgLM 能够生成不同的 CDR H3 循环序列，并且这种多样性在很大程度上可以通过选择采样参数来调整。

用于抗体设想的深度生成蛋白谈话模型

图示：生成添补的医治性抗体库。（滥觞：论文）

此外，添补的文库具有理想的可开发性特征（聚集倾向、溶解度），同时比它们的父序列平均更像人类。值得注意的是，IgLM 相对于已经高度优化的抗体实现了这些改进，因为所有亲本序列都经过设想，可用于人类的大规模生产和使用。虽然这项研究中专注于抗体环添补，但类似的策略通常可能对蛋白质有用。例如，通用蛋白质序列添补模型可能适用于重新设想连续的蛋白质活性位点或用于在蛋白质工程的不同域之间生成连接子。

用于抗体设想的深度生成蛋白谈话模型

图示：添补抗体库的医治特性。（滥觞：论文）

「这些库通常由工程师随机突变序列生成。结果是并非生成的每一种抗体都能在体内发挥作用或表现良好。我们的方法不同：我们使用深度学习、人工智能模型来按需创建高质量的数据库，」团队负责人，约翰霍普金斯大学化学与生物分子工程系教授，纳米生物技术研究所副教授 Jeffrey Gray 说。

「展望未来，我们希望与合作伙伴一起验证该方法，以更快地发现医治性抗体。」团队成员 Jeffrey Ruffolo 说，他是 Krieger 艺术与科学学院 Thomas C. Jenkins 生物物理学系的博士候选人，也是约翰·霍普金斯-阿斯利康学者，「最终目标是减少对大型图书馆的需求，并按需分解在实验室工作的一定抗体。」

Gray 表示，尽管该团队迄今为止的努力仅限于在计算机上创建抗体库，但他们正在寻找合作伙伴以从事实验测试。

「我们相信 IgLM 有真正的希望，但我们需要一个合作者通过实验筛选我们的文库以找到针对一定疾病的抗体。」他说，「原则上，我们可以做到这一点，但我们需要进一步的实验来证实这一点。」

论文链接：https://www.biorxiv.org/content/10.1101/2021.12.13.472419v2.full

相关报道：https://medicalxpress.com/news/2023-03-approach-antibody-libraries.html

{{userData.name}}已认证

用于抗体设想的深度生成蛋白谈话模型

聚焦数智化转型百分点科技2023数据迷信峰会即将举办

GPT-4的研究路径没有前程？Yann LeCun给自返回判了死刑

刚刚，AI颠覆物理模拟：一句话精准仿真，学术圈半壁江山联手耗时24个月研究成果

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

2024年AI 编程现在可以做到什么程度？

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践

抢跑OpenAI！谷歌Gemini 2.0震撼登场：全面转向Agent，多模态输入输出，免费随便玩

{{userData.name}}已认证

聚焦数智化转型 百分点科技2023数据迷信峰会即将举办

GPT-4的研究路径没有前程？Yann LeCun给自返回判了死刑

刚刚，AI颠覆物理模拟：一句话精准仿真，学术圈半壁江山联手耗时24个月研究成果

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

2024年AI 编程现在可以做到什么程度？

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践

抢跑OpenAI！谷歌Gemini 2.0震撼登场：全面转向Agent，多模态输入输出，免费随便玩

聚焦数智化转型百分点科技2023数据迷信峰会即将举办