编辑 | 紫罗
在今年的 ICLR 会议上,共评选出 5 篇杰出论文奖以及 11 篇荣誉提名。
纽约大学和基因泰克(Genentech)合作发表的一篇关于蛋白质计划的钻研论文获得杰出论文奖。
这篇论文解决了鉴于序列的抗体计划成绩,这是蛋白质序列生成模型的一个及时而重要的应用。
为此,钻研职员引入了一种创新而有效的新建模法子——失散「步行-跳跃」采样(Discrete Walk-Jump Sampling,dWJS)算法,用来专门针对处理失散蛋白质序列数据的成绩。除了在计算机上考证该法子之外,还进行了广泛的湿实验室实验,来丈量体外抗体连系亲和力,证明了其生成法子的有效性。
97-100% 的生成样本能够成功表达和纯化,并且与已知的功能性抗体相比,70% 的功能性计划在第一轮湿室实验考证中显示出相同或更高的连系亲和力。
论文链接:https://openreview.net/forum?id=zMPHKOmQNb
鉴于序列的抗体计划
失散序列生成对鉴于梯度的生成模型提出了许多挑战。生成模型必须具有足够的表达能力,能够很好地捕获底层数据分布,同时还具有新鲜、独特、多样化的可控输出,并尊重成绩空间的约束。
鉴于能量的模型(EBM)虽然易于计算能量,但难以训练和采样。鉴于分数匹配的去噪目标和集中模型虽然克服了这些成绩,但这些成绩要么是对能量梯度进行建模,要么仅提供对可能性的经验下限的访问。
蛋白质计划是失散序列生成成绩的一个实例,其中的挑战是在尺寸为 20^L 的大型、失散且稀疏的功能空间中为长度为 L 的蛋白质找到有用的蛋白质。
将 ab initio 与 de novo 蛋白质创造区分开
在此,钻研职员考虑抗体生成建模的具体成绩,抗体是一类具有高度保守结构的蛋白质。除了上述品质之外,由于治疗性抗体的数据集相对较小,抗体的生成模型必须具有样本效率。抗体由保守结构域和高熵可变区域组成,因此利用预训练的蛋白质语言模型中的进化信息并不是一个直接的解决方案。
将从头开始的蛋白质创造和计划(在给定一些训练样本的情况下产生新鲜的功能性蛋白质)与从头计划(在没有起始材料的情况下生成新鲜的蛋白质)区分开来,这是该钻研的重点。
现有的自回归蛋白质计划法子效率低下,可能会出现错误累积和高推理延迟,而当前的非自回归集中模型同样效率低下,并且对于实际创造和计划任务的优化很差。
钻研职员的目标是为失散数据发明一种高效的、非自回归的生成建模范式,以生成高质量的新鲜样本。
用于蛋白质创造的新算法:dWJS
为此,钻研职员引入平滑失散采样(Smoothed Discrete Sampling,SDS),一种用于从失散生成模型进行训练和采样的新形式。
图示:从 dWJS 的单个马尔可夫链蒙特卡罗采样运行中选择的样本。(起源:论文)
钻研职员提出了一种新鲜的算法,即失散「步行-跳跃」采样(Discrete Walk-Jump Sampling,dWJS),这是一种鉴于神经经验贝叶斯(NEB)形式主义的法子,解决了失散 EBM 和集中模型的脆弱性,并在此过程中,为蛋白质创造和计划提供了一个强大而通用的框架。
图示:dWJS。(起源:论文)
此外,还计划了一个称为分布一致性评分 (Distributional Conformity Score,DCS) 的指标,这是蛋白质样品质量的简单标量评分。钻研结果拯救了用于失散分布建模的 EBM,质疑蛋白质创造中是否需要具有多个噪声尺度的集中模型。
图示:使用 dWJS 采样的计算机计划与考证样本的参考集进行比较。(起源:论文)
97.47% 的体外成功率
为了证明法子的有效性,钻研职员在计算机上考证了该法子,并进行了广泛的湿实验室实验来丈量体外抗体连系亲和力。
钻研职员使用一套「抗体相似性」(ab-likeness)指标来丈量生成模型的性能。
采用 dEBM 采样的 dWJS 与考证集属性分布达到了最佳一致性,并且 unique 样本的百分比最高,而鉴于分数采样的 dWJS 具有较高的分布一致性得分、新鲜性和多样性。与一种专门为抗体计划 (IgLM) 训练的鉴于 Transformer 的语言模型相比,dWJS 的采样速度提高了 43 倍,这在生成和排序大量计划时非常有用。
图示:相似性指标、独特性、多样性和分布一致性分数。(起源:论文)
在实验室测试的超过 277 个计划抗体序列中,有 270 个已成功表达和纯化。实现了 97.47% 的体外成功率。
图示:丈量的蛋白质合成。(起源:论文)
钻研职员还报告了 dWJS 鉴于能量的计划的体外湿实验室考证结果。dWJS 产生最高百分比的与靶标连系的功能性抗体。通过重新计划曲妥珠单抗的 CDR H3 环,在 HER 2 的第一轮湿室实验考证中达到了 70% 的连系率。这是应用于曲妥珠单抗 CDR H3 重新计划的任何抗体计划法子中报道的最高连系率。
图示:预测和丈量的抗体连系亲和力。(起源:论文)
此外,该法子还展示了在单一马尔可夫链蒙特卡洛(Markov chain Monte Carlo,MCMC) 链中访问多种抗体蛋白质类别的能力。
总而言之,该钻研提出了一个简化的、更通用和稳健的框架,用于从鉴于失散能量和分数的模型进行训练和采样,并应用于治疗分子计划。
未来,钻研职员将探讨该法子对其他类别的分子甚至其他数据模式(例如图像)的普遍性,以及对这里提出的结果的理论钻研。