编辑 | 绿萝
1 月 11 日,在机器之心 AI 科技年会上,分子之心创始人、美国芝加哥丰田计算技术研究所终身教授、清华大学智能产业研究院(AIR)卓越访问教授许锦波发表主题演讲《AI 卵白质安排最新进展》,在演讲中,他介绍了卵白质布局预计与卵白质安排,他表示 AI 卵白质布局预计只是一个开始,分享了分子之心开发的 AI 卵白优化和安排平台——MoleculeOS,以及在卵白质侧链、抗体抗原复合物布局预计的最新研究成果。「人工智能颠覆了卵白质布局预计,并正在改变卵白质优化安排。」
以下为许锦波在机器之心 AI 科技年会上的演讲内容,ScienceAI 进行了不改变原意的编辑、整理:
大家好,我是许锦波。十分荣幸能够在机器之心 AI 科技年会上和大家讲讲我最近在 AI 卵白质方面的研究进展。
卵白质与卵白质布局预计
首先,我简单介绍一下卵白质。卵白质是一个十分大的分子,由 20 种氨基酸通过化学键串联在一起。在这里看一下卵白质的分子式。这是一个很小的卵白质,只有 8 个氨基酸。每个氨基酸都是由很多原子构成的,它有主链的原子,也有侧链的原子。自然界有 20 种氨基酸,它们的主链原子构成都是一样的,只是在侧链原子构成上不一样。有些氨基酸有很多侧链原子,有些氨基酸几乎没有侧链原子。这些原子在细胞里面相互作用,最后形成一个稳定的状态。
这里看一些卵白质布局的例子,也就是,卵白质在细胞中,它们的原子堆叠之后,最后的形状是什么样子的。这里一共有 4 个例子。假设我们已经有了卵白质原子的相应的位置,现在可以用一些软件,可以把卵白质的构象显示进去。比如上面两个图是用卡通图来表现卵白质布局,很漂亮。下面把它们的原子也都给显示进去了,这个卵白的布局看起来就较为复杂。
卵白质的布局,特别是在原子层面的布局,对于理解卵白质的功能十分有用。我们怎样才能得到卵白质的布局?在过去几十年,科学家们开发了不同的试验技术,有三种主流的试验技术:晶体衍射,核磁共振以及冷冻电镜。这三种试验技术都可以把卵白质的构象测进去,但是它们都存在一些问题,首先它们测一个卵白布局都需要很长时间,可能耗时几个月到几年,花费也十分高。并且有很多卵白质布局很难用这些试验技术给测进去。
AI 卵白质布局预计,这只是一个开始
所以,另一种思路,就是我们利用计算的法子把卵白质布局预计进去。现在,我们有高通量测序,可以很容易得到卵白质的氨基酸序列。所以,假设我们有了卵白质的氨基酸序列,能不能利用计算的法子把卵白质的所有原子的三维坐标给计算进去,也就是卵白布局预计。当然,这个问题是个很难的问题,已经研究了五六十年,一直没有很好的结果。直到最近几年,通过利用人工智能的法子,我们在卵白质布局预计方面取得了很大的突破。人工智能预计卵白质布局,在 2020 年和 2021 年都被《科学》杂志评为十大科学突破。去年 2022 年也入选了《麻省理工科技评论》的十大突破性技术。
从这里可以看出,卵白质布局预计是个很难的问题,本身也是十分重要的问题,所以受到学术界的高度关注。AI 预计卵白质布局取得了很大成功,但这只是一个开始,也只是用 AI 去研究卵白质的一个开始。AI 卵白质布局预计改变了分子生物学家的研究范式。往日大家都是基于卵白质的氨基酸序列来研究一个卵白质布局,但现在我们可以很容易地预计卵白质布局。所以很多分子生物学家现在都可以基于卵白质布局去研究卵白质的功能。从另外一个角度,AI 预计卵白质布局的成功,其实也证明了 AI 对卵白质分子的研究是十分有效的。
AlphaFold2(AF2)可以把单一卵白布局预计得很好,也有做得不是很好的地方,比如预计两个或多个卵白质形成的复合物布局。虽然 AF2 在目前的法子里算是不错的,但是它的成功率还是远远不能让你满意的。特别是在一个十分重要的应用——抗体抗原相互作用预计方面,AF2 结果还是不那么好。当然也有很多 AF2 本身是不能做的,比如 AF2 没办法对卵白质进行优化和重头安排,也没法预计单点突变对卵白质布局和功能的影响。另外,AF2 可以预计卵白质与卵白质的相互作用,但是它没办法预计卵白质和其他分子(小分子、DNA 和 RNA)的相互作用。
MoleculeOS:AI 卵白优化和安排平台
卵白质优化安排是创造自然界中不存在的卵白质,即找到一个布局和功能可满足特定需求的氨基酸序列。卵白质优化安排是一个十分难的问题,它面临的挑战,首先就是卵白质序列空间是十分巨大的。假设我们只斟酌一个 100 个氨基酸的卵白质,自然界有 20 种氨基酸,其实序列空间就是 20 的 100 次方,这是个十分巨大的一个序列空间。但是巨大的序列空间里面其实只有很小比例的氨基酸序列可以折叠成一个稳定的构象,并且具有某种特定的功能。所以我们要在巨大的空间里面搜索,可以折叠成一个稳定的构象且具有我们所需要功能的氨基酸系列。这相当于大海捞针,是一个十分困难的问题。预计卵白质布局和功能是卵白质安排的一个基础,也就是我们在卵白质安排的时候,往往需要对卵白质布局和功能进行预计。
卵白质安排在诊断、治疗和预防里面都有十分重要的应用。比如我们可以安排一个小卵白,它可以用来做新冠病毒的诊断。当然我们也可以安排疫苗,用来预防新冠病毒。也可以用卵白安排的法子去安排一个小卵白,功能有点类似于抗体,它可以阻断新冠病毒进入人体。
分子之心在过去一段时间里,专门开发了一个 AI 卵白优化和安排平台——MoleculeOS。这个平台主要是用来发明而不是发现卵白质,实现「可编程」的卵白质疗法。这个平台一共分为 4 层,在基础层上,是我们的一些 AI 算法,以及一些大数据库,还有一些算力平台。在能力层上,包含了不同的功能模块。比如我们可以做单个卵白质预计,也可以用来做卵白质复合物预计,当然也可以预计卵白质功能,还有单点突变对卵白质功能和布局的影响,以及卵白质从头安排。在应用层上,我们会把这种功能模块用到各种不同模态的卵白质上,比如我们可以把它用在酶和抗体上。最后产品层,我们就利用 MoleculeOS 安排不同的,满足我们所需要的卵白质,用来做大分子药物研究或者合成生物学。
MoleculeOS 的底层是由不同的算法构成的。这里就列出了我们过去开发的 10 项全球领先的一些算法。比如我们有全球领先的卵白质序列安排算法,也可以做十分复杂布局的卵白质主链布局从头安排,也具有十分好的卵白质侧链预计算法,以及卵白质复合物,特别是抗体抗原结合的预计算法。下面讲一下具体的研究结果。
MoleculeOS 可以用来安排大小和构象不受限制的卵白质。传统的卵白质安排算法安排的卵白质往往是较为小的,并且大多数情况下安排的卵白质都是 Alpha 卵白。但通过利用 AI 的法子,我们可以安排较为大的卵白质,并且安排进去卵白质的二级布局。它可以既有Alpha-helix,也有 Beta-strand,也就是我们可以安排的卵白质空间比传统法子是要大得多。这也意味着潜在的可能性——我们可以安排卵白质的功能也会比往日的法子更具有多样性。
另外我们也可以安排布局和功能相似但是能量更低、更稳定的卵白质。这里看 3 个例子。在这 3 个例子里,黄色的是试验布局,蓝色的我们安排进去的卵白质。从这里可以看到,我们安排的卵白质其实是跟试验布局看起来差不多,但如果计算它们的能量,我们安排进去卵白质的能量往往是要低于自然界存在的卵白质的能量。
有时候给定一个卵白质骨架,我们想重新安排卵白质的氨基酸序列,就可以对卵白质进行优化。比如我们可以针对性质需求进行氨基酸序列安排,如酶的热稳定性、催化活性,抗体的亲和力、稳定性、可溶解性。我们安排了一个 AI 算法,下图左边画出了我们 AI 算法的神经网络架构,右边表里面列出了性能评估。我们可以有各种法子去评估氨基酸序列安排算法,在这里我们用一种通用的评估标准,也就是计算天然卵白序列的恢复率。与其他的法子相比,我们得到恢复率是最高的。
另外一个十分重要的功能模块,就是预计两个或多个卵白质结合自由能的变化,即 ddG 预计。ddG 预计可以用来做抗体优化、酶与底物的亲和力的优化、以及用来优化某个卵白质,比如说多肽分子。这个问题难度在于,我们并没有很多数据可以用来训练我们的 AI 模型。在这种情况下,往往很多 AI 算法是可很容易造成了overfit。在这里我们安排了一个很好的算法,我们测量算法预计的结果跟试验结果的相关性,也就是 PCC。我们的算法的 PCC 可达到大概 60%,远远好于这往日的法子,比如 FoldX,还有一些深度学习法子。不管往日法子是传统的法子还是深度学习法子,他们的 PCC 都远低于我们。
研究成果:卵白质侧链、抗体抗原复合物布局预计
接下来,更详细地讲讲我们最近的一些结果。
在卵白质侧链布局预计上,我们取得了较为好的进展。所谓的卵白质侧链布局预计,也就是假设我们已经有了卵白质的主链接布局,我们可以通过预计把侧链的原子位置确定下来。传统的法子主要是利用能量优化。首先,因为侧链原子在空间的分布不是随机的,他们需要对侧链原子在空间分布进行做 cluster,把它分成不同的组。然后再针对某一个特定的氨基酸去搜索它的侧链分组,同时优化能量。这是传统的法子。最近我们安排了一个 AI 算法,用来预计卵白质侧链布局。
这张表里面展示一些结果。首先我们在 CASP13 这些尝试卵白上面尝试了我们算法,利用的主链布局是试验布局。把我们的法子跟其他法子较为,有三种传统的法子, RosettaPacker, SCWRL 和 FASPR,也有深度学习法子,比如 DLPacker。我们这里利用了两种策略。从这里可以看到,我们的法子无论利用哪一种测量指标,都是要好于往日的法子。比如 RMSD,就是我们预计出原子的位置与它试验布局测出的位置的偏差——当然偏差是越小越好——从这里可以看到,我们两种法子得到的 RMSD 都是有远低于往日的四种法子的。在二面角预计的偏差上面也是一样的。在二面角预计偏差上面,我们的结果也是要好于往日的 4 种法子,特别是在第一个二面角上面,我们的结果是远好于往日的 4 种法子。
另外我们也检查了我们预计到的侧链原子在空间中是不是有摩擦,也就是它在物理上是不是可行的。其实从表里面可以看到往日的 4 种法子,它们预计进去的原子在空间中都有很多摩擦,在物理上不一定可行。我们的预计进去侧链原子位置,它的摩擦比往日的法子要少很多。我们的摩擦数量其实接近试验布局解进去的卵白质布局里包含的摩擦数量。
我们也在 CASP 14 上做了尝试,主链布局同样利用了试验布局,我们也将我们这两种策略与往日的 4 种法子在数据集上进行了较为,可以看到还是一样的结果。比如我们做出了侧链原子布局预计,无论是利用 RMSD 评估也好,还是用二面角偏差评估,或者用摩擦的数量评估我们的算法性能,都是远好于往日的法子。特别是在摩擦的数量指标上,我们预计的侧链原子位置甚至都要好于用试验布局解进去的侧链原子的位置,可以用我们这个法子去优化一个用试验布局解进去的卵白质布局。
另外,我们也看了 56 个在 CASP 13 和 CASP 14 里较为难的那些尝试例子,在尝试里面,我们主链布局同样利用了试验技术做进去的布局。在数据集上,结果与前面两个数据上结果是一样的。无论在 RMSD 评估上,还是二面角偏差评估,或者在摩擦的数量上。在摩擦数量上,我们预计进去的侧链原子摩擦数量甚至要少于用试验布局解进去的摩擦数量。
除了用试验技术解进去的主链布局作为输入,我们也斟酌了其他情况。比如,假设主链布局是用预计进去的,而不是用试验技术解进去的,看看我们算法的效果怎么样。在这里,我们尝试了 CASP 13 的卵白,但是在这个尝试例子里,主链布局不是试验技术解进去的,而是预计进去的。在这里,我们利用了 AF2 加上模板,再加上多序列比对去预计主链布局。并且我们只斟酌那些 AF2 预计进去效果较为好的例子,也就是 RMSD 小于 2. 5 的尝试卵白,一共有 47 个。除了跟往日的四种侧链预计法子做较为,我们也较为了另外三种预计法子,比如我们较为了 AF2 两种不同的策略,一个是利用了多序列比对,另外是没有利用多序列比对。另外我们也较为 了 OmegaFold。
从这里可以看出,我们的法子是有最小的三维坐标的预计偏差,即最小的 RMSD。从二面角来说,我们也是最小的二面角偏差。斟酌预计出的原子在空间中的摩擦,同样我们预计进去原子在空间中摩擦要远远好于其他的法子,就是我们预计进去侧链原子在空间中的摩擦数量十分接近用试验技术解进去的布局里原子在空间中的摩擦数量。
我们也看了 CASP 14 的结果,在这里,同样我们只斟酌那些试验法预计的较为好的那些 CASP 的尝试卵白。与 CASP 13 的结果趋势是十分相似的。当只斟酌是 RMSD 时,我们的结果要好于其它法子。在二面角偏差上面,也是比 AF2 好一些。在原子的摩擦数量上,我们预计出原子摩擦数量十分接近用试验技术解进去的,要好于 AF2 预计进去的结果。
当我们斟酌所有的 CASP 13 尝试卵白,在这种情况下,我们也斟酌那些主链预计得不是很好的情况,看看那些尝试卵白效果怎么样。其实这个趋势是与往日一样,也就是我们预计进去侧链原子的位置。无论是 RMSD,还是二面角偏差,还是原子的摩擦数量,我们的结果都是最好的。
同样我们也斟酌了 CASP 14。我们观察到一样的趋势,也就是,我们预计效果是要好于往日的法子,也好于 AF2。特别是在原子摩擦数量方面,我们预计的结果甚至要好于试验技术解进去的布局。
刚才讲了我们最近在卵白质侧链预计上的结果。下面讲一下我们在抗体抗原形成的复合物布局预计上的效果。这是另外一个 AI 算法。我们的 AI 算法在抗体抗原复合物布局预计上取得了较为大的进展。首先我们在这里尝试了两种情况。第一种情况是,假设我们知道单个抗体或单个抗原的试验布局,我们怎么能够预计抗体和抗原结合在一起的布局?我们想看看在这种情况下我们预计进去的效果怎么样。在这里我们也用了几不同的指标去评价预计出的结果。比如我们也利用了 DockQ 的成功率,这个指标是越高越好。除了 DockQ 成功率之外,我们也计算了 I-RMSD,也就是抗体抗原结合的那些位置的预计偏差,所以这个指标越小越好。除了 I-RMSD,我们也计算了 L-RMSD。在计算 I-RMSD 和 L-RMSD 时,我们斟酌了比如前 25%,50%,75% 的预计结果偏差。我们的算法可以生成多个不同的复合物构象。在这里除了衡量,然后我们会用一个预计 pLDDT 去排序。所以选出前 5 个预计进去。除了评估第一个预计,我们也评估了前 5 个里面最好的复合物布局的质量是怎样的。当然有些算法他们只能生成单个,或者他们虽然能生成多个预计布局,但是可能比如他们可以生成 5 个,但是 5 个可能预计的布局其实也是较为相似的。在这里我们评价了第一个预计布局和前 5 个里面最好的预计布局。
从这张表里面可以看到。首先,传统的一些卵白质对接算法,比如 Zdock,PatchDock,Hdock,甚至最近一个基于深度学习的 EquiDock,他们的 DockQ 成功率其实都是十分低的,都是个位数。他们预计出的 I-RMSD 和 L-RMSD 也都十分大。我们也尝试了 AlphaFold-multimer(AFM*),DockQ 的成功率大概是 24.4%,这个结果是远远好于传统的一些卵白质对接算法。
对于我们的法子,我们试了 4 种不同的策略。对于每个尝试的复合物,如果我们只斟酌第一个预计布局,我们的成功率大概是 37. 8%,远远好于 AFM* 。我们也看了 I-RMSD 和 L-RMSD,无论是 I-RMSD 还是 L-RMSD,我们的偏差值都是远小于 AFM*。我们也看了前五个预计进去结果,在前五个预计结果,我们成功率就变成了 48. 9%。这个成功率是也好于我们只斟酌第一个的成功率,也就是,我们预计进去的这些复合物布局,它其实是有多样性的。这样,如果我们斟酌前 5 个预计结果,我们可以大幅度提高预计的成功率。
刚才是假设我们有抗体或者抗原单体的试验布局,但在某些情况下,我们是没有它的试验布局,我们只有单体的预计布局。这时,我们的算法到底能在预计布局的情况下,能做得有多好。同样,我们较为了我们的法子,与一些传统的卵白质对接算法,比如 Zdock,也较为了最近的一个深度学习算法:EquiDock。同样,我们的成功率是远远好于其他的卵白质对接法子。比如我们如果只斟酌前第一个预计复合物布局,我们的 DockQ 成功率是大概 42. 3%。如果斟酌 5 个里面最好的,我们的 DockQ 成功率是 46. 2%。
所以,综合这两个表,可以看到,无论是利用单体的试验布局,还是利用单体的预计布局,我们的抗体抗原复合物布局预计算法的性能是要远好于其他的法子。
最后,我总结一下。人工智能不但颠覆了卵白质布局预计,其实也大幅度地提高了卵白质其他方面的研究的性能。比如在卵白质侧链布局预计,在卵白质复合物,特别是抗体抗原复合物布局预计方面,在卵白质的优化和安排方面,通过利用人工智能,我们都可以做得比传统法子要好很多。卵白质的优化和安排有十分广阔的应用场景。它在制药、合成生物学、工农业生产、材料安排以及环境改善方面都有十分广阔的应用场景。