蛋白质由氨基酸经脱水缩合反应形成,可折叠为复杂的 3D 空间布局,是生物体内执行各种功能(催化生物化学反应、传递信号)的主要分子,而其中蛋白质的侧链布局对其功能至关重要。侧链的化学性质和空间排列决定了蛋白质如何折叠,以及蛋白质如何与其他分子(包括其他蛋白质、DNA、RNA、小分子等)相互作用。这些相互作用可以是氢键、离子键、疏水相互作用和范德华力等。理解这些相互作用,可以帮助我们更好的寻找药物与受体的结合位点,设计催化效果更强的酶。因此,准确展望蛋白质的侧链构象对于理解蛋白质的功能和设计新的药物至关重要。
传统的蛋白质侧链构象展望算法(如 RosettaPacker)平时通过在能量函数界说的概率分布中采样得到蛋白质侧链构象,此类算法平时依赖于人为设计的能量函数,受限于能量函数设计的精准度。另一方面,尽管以 AlphaFold2 为首的一系列深度进修模型在蛋白质布局展望方面取得了比较大的突破,但其对侧链构象的展望平时依赖于端对真个进修,无法捉拿侧链构象的整体分布,因此准确度上受到了一定的限制。
近日,来自 Mila 的唐建团队提出了一种新的侧链构象展望法子 DiffPack。该法子使用旋转角空间中的自返回聚集模型,与目前已知的最优法子相比,在 CASP13 和 CASP14 上取得了大幅提升实现了超过 10% 的提升,且仅需要 1/60 的参数量。此外,作者进一步验证了 DiffPack 能够给有效改进 AlphaFold2 的侧链展望结果。
论文链接:https://arxiv.org/abs/2306.01794
代码链接:https://github.com/DeepGraphLearning/DiffPack
法子
过去的 AI 算法以端对真个方式从原子位置的均方根偏向 (RMSD)界说损失函数。尽管此类法子存在速度上的优势,但他们平时被端对真个建模方式所限制,无法捉拿蛋白质侧链构象的整体分布,倾向于生成侧链的 「平均构象」。DiffPack 基于聚集模型提出了一种新颖的侧链构象展望法子。通过对蛋白质侧链构象加入噪声并进修去噪历程,模型能够更准确地进修到蛋白质侧链构象的整体概率分布。
蛋白质侧链的构象平时较为复杂,如果直接使用空间坐标的聚集历程建模会引入过多的自由度从而增加问题的复杂性。同时由于蛋白质的侧链构象由至多四个旋转角(χ1, χ2, χ3, χ4)构成,研讨职员选择将聚集历程界说在四个旋转角构成的旋转空间中,在前向聚集历程中引入非欧几里得噪声,同时通过针对蛋白质布局设计的图神经网络 GearNet 进修对四个旋转角的逆向去噪历程。
在尝试中,研讨职员发现对四个旋转角的联合加噪历程会会产生偏向累积效应,从而降低展望的准确度。研讨职员由此进一步提出了一种新颖的自返回聚集模型,将四个旋转角的联合概率分布分解为一系列条件概率分布,在每一个概率分布中引入聚集模型。通过将聚集模型与自返回历程结合,DiffPack 能够以很小的模型规模实现高精度的侧链构象展望。
尝试
研讨职员在包括人造主链布局和由 AlphaFold2 展望得到的非人造主链布局上进行了尝试。DiffPack 在展望蛋白质侧链构象中超越了基于传统能量函数的法子和其他端对真个深度进修模型。表 1 总结了在 CASP13 中的尝试结果,DiffPack 无论是在内部残基(82.7%)和表面残基(57.3%)上,都表现出了最高的角度精度。对于表面残基,其精度比之前的最先进模型 AttnPacker 提高了 20.4%。
同样,DiffPack 在 CASP14 数据集的表现也优于其他法子(表 2),尽管没有将损失函数直接界说在原子位置上,DiffPack 在内部残基原子位置的均方根偏向精度上依然相比于之前的 SOTA 提高了 23%。
由于 AlphaFold2 等计算布局生物学技术的发展,当前人们的关注重心逐渐转移到非人造主链布局的应用上。因此研讨职员将 DiffPack 进一步应用到有 AlphaFold2 生成的非人造主链布局,表 3 给出了包括 AlphaFold2 自身的侧链展望算法在内的不同算法在非人造主链布局测试集上的定量结果。DiffPack 在大多数指标上实现了最先进的水平,这说明了 DiffPack 可以进一步优化 AlphaFold2 展望的潜力。
DiffPack 除了在对侧链构象的准确度上优于其他法子,其模型的总参数量要显著(3,043,363)少于此前的 SOTA 模型(208,098,163),这使得 DiffPack 成为展望侧链构象的更具计算可行性和可扩展性的解决方案。
总结
研讨职员基于聚集模型提出了一种新的针对蛋白质侧链构象的展望算法 DiffPack,DiffPack 将旋转空间中的聚集模型与自返回历程结合,能够更好地捉拿蛋白质侧链构象分布。
DiffPack 在人造主链布局与非人造主链布局的展望上都表现出了一定的优势,同时其模型规模要显著小于其他法子。