编辑 | 紫罗
在今年的 ICLR 会议上,共评选出 5 篇杰出论文奖以及 11 篇荣誉提名。
纽约大学和基因泰克(Genentech)合作发表的一篇关于蛋白质设计的研究论文获得杰出论文奖。
这篇论文解决了基于序列的抗体设计问题,这是蛋白质序列生成模型的一个及时而重要的应用。
为此,研究人员引入了一种创新而有效的新建模方法——离散「步行-跳跃」采样(Discrete Walk-Jump Sampling,dWJS)算法,用来专门针对处理离散蛋白质序列数据的问题。除了在计算机上验证该方法之外,还进行了广泛的湿实验室实验,来测量体外抗体结合亲和力,证明了其生成方法的有效性。
97-100% 的生成样本能够成功表达和纯化,并且与已知的功能性抗体相比,70% 的功能性设计在第一轮湿室实验验证中显示出相同或更高的结合亲和力。
论文链接:https://openreview.net/forum?id=zMPHKOmQNb
基于序列的抗体设计
离散序列生成对基于梯度的生成模型提出了许多挑战。生成模型必须具有足够的表达能力,能够很好地捕获底层数据分布,同时还具有新颖、独特、多样化的可控输出,并尊重问题空间的约束。
基于能量的模型(EBM)虽然易于计算能量,但难以训练和采样。基于分数匹配的去噪目标和扩散模型虽然克服了这些问题,但这些问题要么是对能量梯度进行建模,要么仅提供对可能性的经验下限的访问。
蛋白质设计是离散序列生成问题的一个实例,其中的挑战是在尺寸为 20^L 的大型、离散且稀疏的功能空间中为长度为 L 的蛋白质找到有用的蛋白质。
将 ab initio 与 de novo 蛋白质发现区分开
在此,研究人员考虑抗体生成建模的具体问题,抗体是一类具有高度保守结构的蛋白质。除了上述品质之外,由于治疗性抗体的数据集相对较小,抗体的生成模型必须具有样本效率。抗体由保守结构域和高熵可变区域组成,因此利用预训练的蛋白质语言模型中的进化信息并不是一个直接的解决方案。
将从头开始的蛋白质发现和设计(在给定一些训练样本的情况下产生新颖的功能性蛋白质)与从头设计(在没有起始材料的情况下生成新颖的蛋白质)区分开来,这是该研究的重点。
现有的自回归蛋白质设计方法效率低下,可能会出现错误累积和高推理延迟,而当前的非自回归扩散模型同样效率低下,并且对于实际发现和设计任务的优化很差。
研究人员的目标是为离散数据发明一种高效的、非自回归的生成建模范式,以生成高质量的新颖样本。
用于蛋白质发现的新算法:dWJS
为此,研究人员引入平滑离散采样(Smoothed Discrete Sampling,SDS),一种用于从离散生成模型进行训练和采样的新形式。
图示:从 dWJS 的单个马尔可夫链蒙特卡罗采样运行中选择的样本。(来源:论文)
研究人员提出了一种新颖的算法,即离散「步行-跳跃」采样(Discrete Walk-Jump Sampling,dWJS),这是一种基于神经经验贝叶斯(NEB)形式主义的方法,解决了离散 EBM 和扩散模型的脆弱性,并在此过程中,为蛋白质发现和设计提供了一个强大而通用的框架。
图示:dWJS。(来源:论文)
此外,还设计了一个称为分布一致性评分 (Distributional Conformity Score,DCS) 的指标,这是蛋白质样品质量的简单标量评分。研究结果拯救了用于离散分布建模的 EBM,质疑蛋白质发现中是否需要具有多个噪声尺度的扩散模型。
图示:使用 dWJS 采样的计算机设计与验证样本的参考集进行比较。(来源:论文)
97.47% 的体外成功率
为了证明方法的有效性,研究人员在计算机上验证了该方法,并进行了广泛的湿实验室实验来测量体外抗体结合亲和力。
研究人员使用一套「抗体相似性」(ab-likeness)指标来测量生成模型的性能。
采用 dEBM 采样的 dWJS 与验证集属性分布达到了最佳一致性,并且 unique 样本的百分比最高,而基于分数采样的 dWJS 具有较高的分布一致性得分、新颖性和多样性。与一种专门为抗体设计 (IgLM) 训练的基于 Transformer 的语言模型相比,dWJS 的采样速度提高了 43 倍,这在生成和排序大量设计时非常有用。
图示:相似性指标、独特性、多样性和分布一致性分数。(来源:论文)
在实验室测试的超过 277 个设计抗体序列中,有 270 个已成功表达和纯化。实现了 97.47% 的体外成功率。
图示:测量的蛋白质合成。(来源:论文)
研究人员还报告了 dWJS 基于能量的设计的体外湿实验室验证结果。dWJS 产生最高百分比的与靶标结合的功能性抗体。通过重新设计曲妥珠单抗的 CDR H3 环,在 HER 2 的第一轮湿室实验验证中达到了 70% 的结合率。这是应用于曲妥珠单抗 CDR H3 重新设计的任何抗体设计方法中报道的最高结合率。
图示:预测和测量的抗体结合亲和力。(来源:论文)
此外,该方法还展示了在单一马尔可夫链蒙特卡洛(Markov chain Monte Carlo,MCMC) 链中访问多种抗体蛋白质类别的能力。
总而言之,该研究提出了一个简化的、更通用和稳健的框架,用于从基于离散能量和分数的模型进行训练和采样,并应用于治疗分子设计。
未来,研究人员将探讨该方法对其他类别的分子甚至其他数据模式(例如图像)的普遍性,以及对这里提出的结果的理论研究。