计算效率领先10倍,中国科大、哈佛功能蛋白质设计深度生成模型登Nature子刊

编辑 | ScienceAI蛋白质作为生命活动的物质基础,就像一块块精巧的「乐高积木」,支撑着生物体内几乎所有的化学反应和生命过程。 从肌肉的收缩到大脑的思维,从病毒的侵染到免疫系统的防护,几乎都依赖这些功能多样的分子。 然而,自然界中的天然蛋白质并不能完全满足人类日益多样化的需求,因此科学家们致力于通过设计与定制蛋白质,赋予其更多复杂的功能。

图片

编辑 | ScienceAI

蛋白质作为生命活动的物质基础,就像一块块精巧的「乐高积木」,支撑着生物体内几乎所有的化学反应和生命过程。

从肌肉的收缩到大脑的思维,从病毒的侵染到免疫系统的防护,几乎都依赖这些功能多样的分子。

然而,自然界中的天然蛋白质并不能完全满足人类日益多样化的需求,因此科学家们致力于通过设计与定制蛋白质,赋予其更多复杂的功能。

随着生成式人工智能和生物技术的快速发展,科学家们在蛋白设计领域取得了显著突破。华盛顿大学的 David Baker 教授因其在这一领域的开创性贡献,荣获2024年诺贝尔化学奖。

在此背景下,中国科学技术大学认知智能全国重点实验室刘淇教授指导的博士生张载熙,与哈佛大学医学院 Marinka Zitnik 教授课题组合作,开发了深度生成算法 PocketGen。

这一算法在蛋白质生成效率和成功率上全面超越了新晋诺贝尔化学奖得主 David Baker 教授实验室的生成模型 RFDiffusion 和 RFDiffusionAA,成为当前性能最快、成功率最高的蛋白质口袋设计算法之一。

相关研究成果《Efficient generation of protein pockets with PocketGen》于 2024 年 11 月 15 日正式发表在《Nature Machine Intelligence》 [1]。

图片

论文链接:https://www.nature.com/articles/s42256-024-00920-9

图片

图 1:PocketGen 生成示意图。(来源:论文)

研究团队基于前期蛋白质口袋生成工作 FAIR(NeurIPS 2023 Spotlight)[2] 和 PocketFlow(NeurIPS 2024 Spotlight)[3] 的成果,进一步研发了 PocketGen(见图 2)。

PocketGen 能够基于蛋白质框架和结合小分子,生成蛋白质口袋的序列和结构(图 2a)。该模型的核心架构由两部分组成:

1、双层图 Transformer 编码器(图 2b) 

受到蛋白质固有的层级结构启发,PocketGen 的编码器设计为氨基酸层级和原子层级的双层图 Transformer。

氨基酸层级编码器:学习蛋白质中氨基酸之间的宏观相互作用信息。

原子层级编码器:捕捉更细粒度的原子级相互作用,并动态更新氨基酸和原子表示及其空间坐标。这一层级设计有效整合了蛋白质多尺度的结构特性,为生成高质量的口袋设计奠定了基础。

2、蛋白质预训练语言模型(图 2c) 

PocketGen 在蛋白质语言模型 ESM2 的基础上进行高效微调,通过固定大部分模型层,仅微调部分适应层参数,结合序列-结构交叉注意力机制,进一步增强序列与结构的协调一致性。这种策略不仅降低了训练开销,还显著提升了预测精度。

PocketGen 的优势

PocketGen 的独特优势在于结合了多层次信息和预训练模型的能力,实现了序列与结构设计的一体化。

在实验中,PocketGen 不仅在亲和力和结构合理性等关键指标上优于传统方法,还在计算效率上取得了革命性进步,相较传统方法效率提升超过 10 倍。

这使得 PocketGen 成为当前蛋白质口袋设计领域的前沿工具,为药物研发和分子设计提供了新技术方案。

图片

图 2:(a)用 PocketGen 进行蛋白质序列-结构共同设计。(b) 双层图 Transformer 编码器;(c)蛋白质预训练语言模型用于序列预测及高效微调技术。(来源:论文)

PocketGen 在计算效率和成功率方面均表现优异,成为目前全球最顶尖的蛋白质口袋设计算法之一。

在计算效率上,PocketGen 表现尤为亮眼。相比传统方法,计算效率提升超过 10 倍,显著缩短了蛋白质口袋设计的时间(图 3)。

团队还将其与新晋诺贝尔化学奖得主 David Baker 实验室的生成模型 RFDiffusion 和 RFDiffusionAA 进行了对比,发现 PocketGen 在计算效率上也领先约 10 倍,大幅优化了生成效率。

在蛋白质口袋设计的成功率方面,PocketGen 同样取得了突出成绩。蛋白质口袋的亲和力是评估蛋白质与小分子结合成功率的重要指标。亲和力越高,意味着蛋白质与小分子结合得越紧密、稳定,就像两块吸铁石间的吸引力。

PocketGen 在亲和力指标上的表现超越了传统方法 5 个百分点,显著提升了蛋白质与小分子结合的可能性。

PocketGen 的综合表现使其在蛋白质口袋设计领域树立了新标杆,为药物研发和分子设计等领域提供了更加高效、精准的工具。

图片

图 3:(a)生成效率比较。(b)生成多样性比较。(c)PocketGen可以灵活生成不同大小的蛋白质口袋。(来源:论文)

PocketGen 推进了深度生成模型用于功能蛋白质设计,为进一步理解蛋白质设计规律并开展生物实验验证奠定了基础。

未来,在药物开发、生物传感器、酶催化等领域具有广泛的应用前景。这种跨领域、跨技术的协同创新,不仅为生物工程和药物研发提供了全新思路,也展现了人工智能与自然科学融合的无限可能。

参考文献

[1] Zhang Z, Shen W X, Liu Q, et al. Efficient generation of protein pockets with PocketGen. Nature Machine Intelligence, 2024: 1-14.

[2] Zhang Z, Lu Z, Zhongkai H, et al. Full-atom protein pocket design via iterative refinement. Advances in Neural Information Processing Systems, 2023, 36: 16816-16836.

[3] Zhang Z, Zitnik M, Liu Q. Generalized Protein Pocket Generation with Prior-Informed Flow Matching. Advances in Neural Information Processing Systems, 2024.

相关资讯

Nature | 通过功能优先、人工智能引导的生成模型 Chroma 重塑蛋白质设计

编辑 | 萝卜皮三十亿年的进化已经产生了极其多样化的蛋白质分子,但蛋白质的全部潜力可能要大得多。挖掘这种潜力对于计算和实验来说都是一个挑战,因为可能存在的蛋白质分子的空间,比那些可能具有功能的空间大得多。美国 Generate Biomedicines 的研究团队介绍了 Chroma,一种蛋白质和蛋白质复合物的生成模型,可以直接对新的蛋白质结构和序列进行采样,并且可以进行调节以引导生成过程实现所需的特性和功能。为了实现这一点,研究人员引入了一种尊重聚合物整体构象统计的扩散过程,这是一种分子系统的有效神经架构,它能够

迈向程序化蛋白质生成

编译 | 波菜叶机器学习算法在计算蛋白质设计中的应用最近取得了许多成就,例如从氨基酸序列预测3D结构以及可以折叠成所需3D结构的蛋白质序列的逆向设计。然而,从头蛋白质结构生成——即生成具有所需特性的蛋白质结构——仍然是一项艰巨的任务。巨大的蛋白质分子空间,以及功能性蛋白质仅由所有可能的蛋白质分子的一小部分组成的事实,使得有效识别序列、结构和功能(或性质)之间的关系变得困难。虽然深度生成模型促进了蛋白质结构的生成,但仍然存在一些挑战,例如完整蛋白质复杂性的生成、具有不同设计约束的条件采样而不需要重新训练模型,以及随着

登Nature子刊,中科院计算所团队开发CarbonDesign,进行准确且稳健的蛋白质序列设计

编辑 | 萝卜皮蛋白质是生物体内执行生物功能的基础元件,在催化、免疫和信号传递等生物过程中起着重要作用。一般认为,蛋白质序列设计是蛋白质结构预测的逆问题。具体地,是指从给定的蛋白质三维结构出发,设计出能够折叠成为目标蛋白结构、具有目标蛋白功能的序列。它是从头蛋白质设计的关键一步,一旦主链结构被生成,为其设计最佳序列就变得至关重要。蛋白质序列设计在药物设计、酶工程等领域具有重要应用。由于可能的蛋白质序列和结构比宇宙中的粒子数量还要多,当前实现准确且稳健的蛋白质序列设计,仍然是一个挑战。中国科学院计算技术研究所张海仓、