蛋白质由氨基酸经脱水缩合反应形成,可折叠为复杂的 3D 空间结构,是生物体内执行各种功能(催化生物化学反应、传递信号)的主要分子,而其中蛋白质的侧链结构对其功能至关重要。侧链的化学性质和空间排列决定了蛋白质如何折叠,以及蛋白质如何与其他分子(包括其他蛋白质、DNA、RNA、小分子等)相互作用。这些相互作用可以是氢键、离子键、疏水相互作用和范德华力等。理解这些相互作用,可以帮助我们更好的寻找药物与受体的结合位点,设计催化效果更强的酶。因此,准确预测蛋白质的侧链构象对于理解蛋白质的功能和设计新的药物至关重要。
传统的蛋白质侧链构象预测算法(如 RosettaPacker)通常通过在能量函数定义的概率分布中采样得到蛋白质侧链构象,此类算法通常依赖于人为设计的能量函数,受限于能量函数设计的精准度。另一方面,尽管以 AlphaFold2 为首的一系列深度学习模型在蛋白质结构预测方面取得了比较大的突破,但其对侧链构象的预测通常依赖于端对端的学习,无法捕捉侧链构象的整体分布,因此准确度上受到了一定的限制。
近日,来自 Mila 的唐建团队提出了一种新的侧链构象预测方法 DiffPack。该方法使用扭转角空间中的自回归扩散模型,与目前已知的最优方法相比,在 CASP13 和 CASP14 上取得了大幅提升实现了超过 10% 的提升,且仅需要 1/60 的参数量。此外,作者进一步验证了 DiffPack 能够给有效改进 AlphaFold2 的侧链预测结果。
论文链接:https://arxiv.org/abs/2306.01794
代码链接:https://github.com/DeepGraphLearning/DiffPack
方法
过去的 AI 算法以端对端的方式从原子位置的均方根偏差 (RMSD)定义损失函数。尽管此类方法存在速度上的优势,但他们通常被端对端的建模方式所限制,无法捕捉蛋白质侧链构象的整体分布,倾向于生成侧链的 「平均构象」。DiffPack 基于扩散模型提出了一种新颖的侧链构象预测方法。通过对蛋白质侧链构象加入噪声并学习去噪过程,模型能够更准确地学习到蛋白质侧链构象的整体概率分布。
蛋白质侧链的构象通常较为复杂,如果直接使用空间坐标的扩散过程建模会引入过多的自由度从而增加问题的复杂性。同时由于蛋白质的侧链构象由至多四个扭转角(χ1, χ2, χ3, χ4)构成,研究人员选择将扩散过程定义在四个扭转角构成的扭转空间中,在前向扩散过程中引入非欧几里得噪声,同时通过针对蛋白质结构设计的图神经网络 GearNet 学习对四个扭转角的逆向去噪过程。
在实验中,研究人员发现对四个扭转角的联合加噪过程会会产生偏差累积效应,从而降低预测的准确度。研究人员由此进一步提出了一种新颖的自回归扩散模型,将四个扭转角的联合概率分布分解为一系列条件概率分布,在每一个概率分布中引入扩散模型。通过将扩散模型与自回归过程结合,DiffPack 能够以很小的模型规模实现高精度的侧链构象预测。
实验
研究人员在包括天然主链结构和由 AlphaFold2 预测得到的非天然主链结构上进行了实验。DiffPack 在预测蛋白质侧链构象中超越了基于传统能量函数的方法和其他端对端的深度学习模型。表 1 总结了在 CASP13 中的实验结果,DiffPack 无论是在内部残基(82.7%)和表面残基(57.3%)上,都表现出了最高的角度精度。对于表面残基,其精度比之前的最先进模型 AttnPacker 提高了 20.4%。
同样,DiffPack 在 CASP14 数据集的表现也优于其他方法(表 2),尽管没有将损失函数直接定义在原子位置上,DiffPack 在内部残基原子位置的均方根偏差精度上依然相比于之前的 SOTA 提高了 23%。
由于 AlphaFold2 等计算结构生物学技术的发展,当前人们的关注重心逐渐转移到非天然主链结构的应用上。因此研究人员将 DiffPack 进一步应用到有 AlphaFold2 生成的非天然主链结构,表 3 给出了包括 AlphaFold2 自身的侧链预测算法在内的不同算法在非天然主链结构测试集上的定量结果。DiffPack 在大多数指标上实现了最先进的水平,这说明了 DiffPack 可以进一步优化 AlphaFold2 预测的潜力。
DiffPack 除了在对侧链构象的准确度上优于其他方法,其模型的总参数量要显著(3,043,363)少于此前的 SOTA 模型(208,098,163),这使得 DiffPack 成为预测侧链构象的更具计算可行性和可扩展性的解决方案。
总结
研究人员基于扩散模型提出了一种新的针对蛋白质侧链构象的预测算法 DiffPack,DiffPack 将扭转空间中的扩散模型与自回归过程结合,能够更好地捕捉蛋白质侧链构象分布。
DiffPack 在天然主链结构与非天然主链结构的预测上都表现出了一定的优势,同时其模型规模要显著小于其他方法。