获ICLR 2024杰出论文奖,97.47%体外成功率,蛋白质设计新算法

编辑 | 紫罗在今年的 ICLR 会议上,共评选出 5 篇杰出论文奖以及 11 篇荣誉提名。纽约大学和基因泰克(Genentech)合作发表的一篇关于蛋白质设计的研究论文获得杰出论文奖。这篇论文解决了基于序列的抗体设计问题,这是蛋白质序列生成模型的一个及时而重要的应用。为此,研究人员引入了一种创新而有效的新建模方法——离散「步行-跳跃」采样(Discrete Walk-Jump Sampling,dWJS)算法,用来专门针对处理离散蛋白质序列数据的问题。除了在计算机上验证该方法之外,还进行了广泛的湿实验室实验,来测

图片

编辑 | 紫罗

在今年的 ICLR 会议上,共评选出 5 篇杰出论文奖以及 11 篇荣誉提名。

纽约大学和基因泰克(Genentech)合作发表的一篇关于蛋白质设计的研究论文获得杰出论文奖。

这篇论文解决了基于序列的抗体设计问题,这是蛋白质序列生成模型的一个及时而重要的应用。

为此,研究人员引入了一种创新而有效的新建模方法——离散「步行-跳跃」采样(Discrete Walk-Jump Sampling,dWJS)算法,用来专门针对处理离散蛋白质序列数据的问题。除了在计算机上验证该方法之外,还进行了广泛的湿实验室实验,来测量体外抗体结合亲和力,证明了其生成方法的有效性。

97-100% 的生成样本能够成功表达和纯化,并且与已知的功能性抗体相比,70% 的功能性设计在第一轮湿室实验验证中显示出相同或更高的结合亲和力。

图片

论文链接:https://openreview.net/forum?id=zMPHKOmQNb

基于序列的抗体设计

离散序列生成对基于梯度的生成模型提出了许多挑战。生成模型必须具有足够的表达能力,能够很好地捕获底层数据分布,同时还具有新颖、独特、多样化的可控输出,并尊重问题空间的约束。

基于能量的模型(EBM)虽然易于计算能量,但难以训练和采样。基于分数匹配的去噪目标和扩散模型虽然克服了这些问题,但这些问题要么是对能量梯度进行建模,要么仅提供对可能性的经验下限的访问。

蛋白质设计是离散序列生成问题的一个实例,其中的挑战是在尺寸为 20^L 的大型、离散且稀疏的功能空间中为长度为 L 的蛋白质找到有用的蛋白质。

将 ab initio 与 de novo 蛋白质发现区分开

在此,研究人员考虑抗体生成建模的具体问题,抗体是一类具有高度保守结构的蛋白质。除了上述品质之外,由于治疗性抗体的数据集相对较小,抗体的生成模型必须具有样本效率。抗体由保守结构域和高熵可变区域组成,因此利用预训练的蛋白质语言模型中的进化信息并不是一个直接的解决方案。

将从头开始的蛋白质发现和设计(在给定一些训练样本的情况下产生新颖的功能性蛋白质)与从头设计(在没有起始材料的情况下生成新颖的蛋白质)区分开来,这是该研究的重点。

现有的自回归蛋白质设计方法效率低下,可能会出现错误累积和高推理延迟,而当前的非自回归扩散模型同样效率低下,并且对于实际发现和设计任务的优化很差。

研究人员的目标是为离散数据发明一种高效的、非自回归的生成建模范式,以生成高质量的新颖样本。

用于蛋白质发现的新算法:dWJS

为此,研究人员引入平滑离散采样(Smoothed Discrete Sampling,SDS),一种用于从离散生成模型进行训练和采样的新形式。

图片

图示:从 dWJS 的单个马尔可夫链蒙特卡罗采样运行中选择的样本。(来源:论文)

研究人员提出了一种新颖的算法,即离散「步行-跳跃」采样(Discrete Walk-Jump Sampling,dWJS),这是一种基于神经经验贝叶斯(NEB)形式主义的方法,解决了离散 EBM 和扩散模型的脆弱性,并在此过程中,为蛋白质发现和设计提供了一个强大而通用的框架。

图片

图示:dWJS。(来源:论文)

此外,还设计了一个称为分布一致性评分 (Distributional Conformity Score,DCS) 的指标,这是蛋白质样品质量的简单标量评分。研究结果拯救了用于离散分布建模的 EBM,质疑蛋白质发现中是否需要具有多个噪声尺度的扩散模型。

图片

图示:使用 dWJS 采样的计算机设计与验证样本的参考集进行比较。(来源:论文)

97.47% 的体外成功率

为了证明方法的有效性,研究人员在计算机上验证了该方法,并进行了广泛的湿实验室实验来测量体外抗体结合亲和力。

研究人员使用一套「抗体相似性」(ab-likeness)指标来测量生成模型的性能。

采用 dEBM 采样的 dWJS 与验证集属性分布达到了最佳一致性,并且 unique 样本的百分比最高,而基于分数采样的 dWJS 具有较高的分布一致性得分、新颖性和多样性。与一种专门为抗体设计 (IgLM) 训练的基于 Transformer 的语言模型相比,dWJS 的采样速度提高了 43 倍,这在生成和排序大量设计时非常有用。

图片

图示:相似性指标、独特性、多样性和分布一致性分数。(来源:论文)

在实验室测试的超过 277 个设计抗体序列中,有 270 个已成功表达和纯化。实现了 97.47% 的体外成功率。

图片

图示:测量的蛋白质合成。(来源:论文)

研究人员还报告了 dWJS 基于能量的设计的体外湿实验室验证结果。dWJS 产生最高百分比的与靶标结合的功能性抗体。通过重新设计曲妥珠单抗的 CDR H3 环,在 HER 2 的第一轮湿室实验验证中达到了 70% 的结合率。这是应用于曲妥珠单抗 CDR H3 重新设计的任何抗体设计方法中报道的最高结合率。

图片

图示:预测和测量的抗体结合亲和力。(来源:论文)

此外,该方法还展示了在单一马尔可夫链蒙特卡洛(Markov chain Monte Carlo,MCMC) 链中访问多种抗体蛋白质类别的能力。

总而言之,该研究提出了一个简化的、更通用和稳健的框架,用于从基于离散能量和分数的模型进行训练和采样,并应用于治疗分子设计。

未来,研究人员将探讨该方法对其他类别的分子甚至其他数据模式(例如图像)的普遍性,以及对这里提出的结果的理论研究。

相关资讯

AI揭示微生物暗蛋白:使用机器学习来发现微生物蛋白质宇宙中的功能性「暗物质」

编辑 | 白菜叶宏基因组学项目揭示了地球生物圈中超过 80 亿个非冗余微生物蛋白质序列。其中,11.7 亿种蛋白质在超过 100,000 个可用参考基因组中没有可识别的同源物。了解这些微生物蛋白质的功能是一项艰巨的任务。幸运的是,机器学习最近在复杂生物数据建模和预测方面取得了前所未有的准确性。这些进步的最前沿是基于机器学习的方法,可以自信地预测许多(但不是全部)氨基酸序列的原子级蛋白质结构。最近的一项研究使用 ESMFold 预测器,该预测器利用大型语言模型,从欧洲生物信息学研究所的 MGnify 宏基因组数据库快

计算蛋白质工程最新SOTA方法,牛津团队用密码子训练大语言模型

编辑 | 萝卜皮来自深度语言模型的蛋白质表征,已经在计算蛋白质工程的许多任务中表现出最先进的性能。近年来,进展主要集中在参数计数上,最近模型的容量超过了它们所训练的数据集的大小。牛津大学(University of Oxford)的研究人员提出一个替代方向。他们证明,在密码子而不是氨基酸序列上训练的大型语言模型可以提供高质量的表征,并且在各种任务中都优于同类最先进的模型。在某些任务中,例如物种识别、蛋白质和转录本丰度预测等,该团队发现,基于密码子训练的语言模型优于所有其他已发布的蛋白质语言模型,包括一些包含超过 5

AI可以改写人类基因组吗?首次由AI从头设计的基因编辑器成功编辑人类细胞中DNA

编辑 | 凯霞生成式 AI 可以对话、写诗、画图、做视频、作曲、写代码......那么,AI 可以改写人类基因组吗?现在,新的 AI 技术正在为可编辑 DNA 的微观生物机制绘制蓝图,这预示着未来科学家将以更高的精度和速度对抗疾病。近日,美国 AI 蛋白质设计初创公司 Profluence 推出了 OpenCRISPRTM 计划,发布了世界上第一个开源的 AI 生成的基因编辑器。Profluence 展示了通过 AI 从头开始设计的可定制基因编辑器,对人类基因组的首次成功精确编辑。该技术基于驱动 ChatGPT 的