编辑 | KX
如果我们完全了解分子之间是如何相互作用的,那么生物学就没什么可学的了,因为每一种生物现象,包括我们如何感知世界,最终都源于细胞内生物分子的行为和相互作用。
最近推出的 AlphaFold 3 可以直接从蛋白质、核酸及其配体的序列中预测生物分子复合物的 3D 结构。这标志着我们在长期探索生物分子如何相互作用方面取得了重大进展。
AlphaFold 3 代表了直接从复合物序列预测其三维结构的突破,为生物分子相互作用提供了见解。
生物分子(如蛋白质或核酸)的一维 (1D) 序列以类似于一段代码指定程序的方式指定细胞功能。该序列表示编程语言中的代码,并通过折叠过程「编译」成机器语言中的代码,形成独特的 3D 结构。该程序由折叠的生物分子与细胞内其他分子之间的相互作用执行。
由于其独特的三维结构,生物分子只会与细胞内的一小部分分子(例如 DNA 位点)相互作用,这些相互作用将引发一系列精心策划的化学和结构转化,共同定义生化程序(如转录)。生化过程的产物(如 RNA)代表执行程序的输出。
因此,在生物学中,生物分子的一维序列编码了程序以及编译和执行程序的方法;该序列编码了软件和硬件。根据生物分子的一维序列预测其复合物形成的三维结构是理解生物程序如何执行的关键步骤,对我们理解、合理操纵和设计生物系统的能力具有深远的影响。
图示:分子生物学的「计算教条」。(来源:论文)
50 多年来,科学家一直在努力破译「编译器」,开发能够根据氨基酸序列预测蛋白质等生物分子三维结构的算法。
2020 年,DeepMind 发布了 AlphaFold 2,标志着一场革命的开始。AlphaFold 2 可以以前所未有的中位准确率预测蛋白质结构,优于其他结构预测方法。通过提供超过 2 亿种已知蛋白质的预测结构,AlphaFold 2 已成为全球科学家的宝贵工具,它改变了基础和应用生物学研究,并为蛋白质结构预测的长期挑战提供了解决方案。
AlphaFold 2 的成功激发了人们转向使用深度学习方法来预测复合物的结构。2021 年,华盛顿大学团队研发出了一款基于深度学习的蛋白质预测新工具 RoseTTAFold,在预测蛋白质结构上取得了媲美 AlphaFold2 的超高准确率,而且速度更快、所需要的计算机处理能力也较低。
RoseTTAFold 利用多轨神经网络实现了接近 AlphaFold 2 的高预测精度,暗示了深度学习模型在根据生物分子序列预测复合物结构方面的真正潜力。
RoseTTAFold 推出后不久,人们发现,只需进行少量修改,AlphaFold 2 就能以合理的精度预测蛋白质-蛋白质复合物的结构。接着 AlphaFold Multimer 发布,其证明了在包含多链蛋白质复合物的结构数据集上训练 AlphaFold 2 在改进蛋白质-蛋白质复合物预测方面的实用性。
尽管取得了这些进展,但预测蛋白质复合物的准确性无法与单个蛋白质相比,而且这些方法无法轻易模拟蛋白质-核酸或蛋白质-配体复合物。
今年 5 月初,谷歌 DeepMind 推出了 AlphaFold 3,它在预测蛋白质-蛋白质、蛋白质-配体和蛋白质-核酸复合物的 3D 结构方面,已经超越了大多数专业的先进工具。AlphaFold 3 在多个测试数据集中实现了预测准确率的显著提升。
值得注意的是,AlphaFold 3 在 2 Å 的实验误差范围内,预测了大约 80% 的蛋白质-配体复合物,优于 AutoDock Vina 和 RoseTTAFold 等其他方法。AlphaFold 3 在预测蛋白质-DNA 和蛋白质-RNA 复合物方面也取得了卓越的准确性,并且在预测蛋白质-蛋白质复合物方面优于 AlphaFold Multimer,尤其是对于抗体-抗原相互作用。
此外,AlphaFold 3 在预测包含蛋白质、DNA 和 RNA 残基中各种共价修饰的结构方面也取得了相当的性能,目前尚无竞争方法。这些结果共同证明了 AlphaFold 3 在预测广泛的生物分子复合物的准确性方面取得了相当大的进步,凸显了该模型的底层通用性和多功能性。
AlphaFold 3 实现这一壮举得益于几次更新。也许最重要的是用新的扩散模块替换旧的结构模块,该模块经过训练可以直接预测单个原子的笛卡尔坐标,并且可以推广到更广泛的化学空间。
图示:为 AlphaFold 3 的扩散模块提供动力的扩散过程的说明性示例。(来源:论文)
作为 AlphaFold 3 的简化说明,可以想象在一个典型的生物分子复合体中,取每个原子的三维坐标,并迭代地向其中添加越来越多的高斯噪声,直到我们得到一个随机分布的空间原子云,这个过程通常称为「正向扩散」。扩散模型使用多层神经网络来学习逆转这个过程,这个过程称为「反向扩散」。
通过这种方式,AlphaFold 3 中的扩散模块基本上学会了预测给定复合物中每个原子的坐标,而无需像 AlphaFold 2 中那样使用任何预定义的残基框架,从而包含核酸、离子、配体和化学修饰在内的更广泛的化学空间。
AlphaFold 3 还用 Pairformer(一种更新的 Transformer 架构)取代了 Evoformer,减少了对 MSA 处理的重视,从而简化了整体网络架构。Pairformer 仅保留序列和「配对表示」以供下游处理,现在分别从 MSA 和结构模板中捕获所有经过处理的进化和结构信息。用于优化和训练神经网络的指标也进行了更新,以便更好地适应网络架构的变化,更适用于预测生物分子复合物。
通过在统一的神经网络架构中使用这些改进,AlphaFold 3 减少了对序列比对的依赖,增加了对残基之间相互作用的重视,并将其结构模块推广到更广泛的化学空间,从而提高了对蛋白质和其他生物分子复合物结构的预测精度。
尽管 AlphaFold 3 取得了进步,但仍有几个方面需要改进。AlphaFold 3 有时无法正确模拟分子的手性,有时无法预测大型(总残基超过 2,000 个)蛋白质-核酸复合物的结构,因为相互作用的残基之间存在严重的空间冲突。此外,诸如扩散模块之类的生成模型可能会出现「幻觉」,识别出本质上无序的区域中的结构顺序。
研究人员评估了 AlphaFold 3 对十个可用 CASP15 RNA 靶标的预测准确性,发现与 RoseTTAFold2NA 和 AIchemy_RNA 相比,其准确性更高。然而,在预测 3D RNA 结构方面,AlphaFold 3 的表现不如顶级人类专家辅助 CASP15 提交 Alchemy_RNA2。这些例子说明了,需要在进行生物实验的同时,追求计算上的突破,以检验他们的预测。
DeepMind 推出了 AlphaFold 服务器,它为非商业研究人员提供了一个用户友好的界面,以生成生物分子复合物的 AlphaFold 预测。与其前身 AlphaFold 2 相比,AlphaFold 3 的源代码和可执行文件不公开。提供了伪代码来代替源代码。这为更广泛的科学界对 AlphaFold 3 进行广泛测试带来了障碍,导致该领域内持续激烈的争论,也可能阻碍其未来的进一步发展。
在考虑 AlphaFold 3 带来的结构预测突破时,重要的是要记住,结构生物学的目标不是预测生物分子及其复合物的 3D 结构,而是预测它们的行为以及执行生物程序时会发生什么。例如,从转录因子及其 DNA 结合伙伴的 3D 结构来看,我们无法预测它们彼此结合的紧密程度或速度,以及当我们通过突变残基来改变程序时这些分子行为将如何变化。这些信息是准确预测执行转录程序的结果所必需的。
为了在预测分子行为方面取得进展,我们必须认识到结构预测问题并不像看起来那么明确。生物分子及其复合物不会折叠成单一结构,而是形成数千种不同构象的集合,每种构象都有不同的概率和寿命。
了解这些构象景观以及它们在生物分子相互作用时如何变化,对于定量预测亲和力和动力学速率至关重要。因此,我们需要一个新的「编译器」,可以解码由生物分子的一维序列编码的动态信息,以及可以利用这种三维结构的动态表示来更好地预测执行程序的结果的模型。
从各种条件下的序列预测构象集合是我们现在必须集中精力解决的问题,从而获得对分子行为的定量和预测性理解。训练神经网络从序列预测集合需要大量实验确定的集合数据集。然而,实验确定的构象集合的数量目前仅限于几十个。
因此,尽管利用 AlphaFold 3 根据生物分子序列预测其自由和相互复合的 3D 结构,是理解分子行为和生物计算的重要一步,但实验人员不必担心被淘汰。结构生物学领域即将变得更加充满活力。
论文链接:https://www.nature.com/articles/s41594-024-01350-2