编辑 | ScienceAI
蛋白质作为生命活动的物质基础,就像一块块精巧的「乐高积木」,支撑着生物体内几乎所有的化学反应和生命过程。
从肌肉的收缩到大脑的思维,从病毒的侵染到免疫系统的防护,几乎都依赖这些功能多样的分子。
然而,自然界中的天然蛋白质并不能完全满足人类日益多样化的需求,因此科学家们致力于通过设计与定制蛋白质,赋予其更多复杂的功能。
随着生成式人工智能和生物技术的快速发展,科学家们在蛋白设计领域取得了显著突破。华盛顿大学的 David Baker 教授因其在这一领域的开创性贡献,荣获2024年诺贝尔化学奖。
在此背景下,中国科学技术大学认知智能全国重点实验室刘淇教授指导的博士生张载熙,与哈佛大学医学院 Marinka Zitnik 教授课题组合作,开发了深度生成算法 PocketGen。
这一算法在蛋白质生成效率和成功率上全面超越了新晋诺贝尔化学奖得主 David Baker 教授实验室的生成模型 RFDiffusion 和 RFDiffusionAA,成为当前性能最快、成功率最高的蛋白质口袋设计算法之一。
相关研究成果《Efficient generation of protein pockets with PocketGen》于 2024 年 11 月 15 日正式发表在《Nature Machine Intelligence》 [1]。
论文链接:https://www.nature.com/articles/s42256-024-00920-9
图 1:PocketGen 生成示意图。(来源:论文)
研究团队基于前期蛋白质口袋生成工作 FAIR(NeurIPS 2023 Spotlight)[2] 和 PocketFlow(NeurIPS 2024 Spotlight)[3] 的成果,进一步研发了 PocketGen(见图 2)。
PocketGen 能够基于蛋白质框架和结合小分子,生成蛋白质口袋的序列和结构(图 2a)。该模型的核心架构由两部分组成:
1、双层图 Transformer 编码器(图 2b)
受到蛋白质固有的层级结构启发,PocketGen 的编码器设计为氨基酸层级和原子层级的双层图 Transformer。
氨基酸层级编码器:学习蛋白质中氨基酸之间的宏观相互作用信息。
原子层级编码器:捕捉更细粒度的原子级相互作用,并动态更新氨基酸和原子表示及其空间坐标。这一层级设计有效整合了蛋白质多尺度的结构特性,为生成高质量的口袋设计奠定了基础。
2、蛋白质预训练语言模型(图 2c)
PocketGen 在蛋白质语言模型 ESM2 的基础上进行高效微调,通过固定大部分模型层,仅微调部分适应层参数,结合序列-结构交叉注意力机制,进一步增强序列与结构的协调一致性。这种策略不仅降低了训练开销,还显著提升了预测精度。
PocketGen 的优势
PocketGen 的独特优势在于结合了多层次信息和预训练模型的能力,实现了序列与结构设计的一体化。
在实验中,PocketGen 不仅在亲和力和结构合理性等关键指标上优于传统方法,还在计算效率上取得了革命性进步,相较传统方法效率提升超过 10 倍。
这使得 PocketGen 成为当前蛋白质口袋设计领域的前沿工具,为药物研发和分子设计提供了新技术方案。
图 2:(a)用 PocketGen 进行蛋白质序列-结构共同设计。(b) 双层图 Transformer 编码器;(c)蛋白质预训练语言模型用于序列预测及高效微调技术。(来源:论文)
PocketGen 在计算效率和成功率方面均表现优异,成为目前全球最顶尖的蛋白质口袋设计算法之一。
在计算效率上,PocketGen 表现尤为亮眼。相比传统方法,计算效率提升超过 10 倍,显著缩短了蛋白质口袋设计的时间(图 3)。
团队还将其与新晋诺贝尔化学奖得主 David Baker 实验室的生成模型 RFDiffusion 和 RFDiffusionAA 进行了对比,发现 PocketGen 在计算效率上也领先约 10 倍,大幅优化了生成效率。
在蛋白质口袋设计的成功率方面,PocketGen 同样取得了突出成绩。蛋白质口袋的亲和力是评估蛋白质与小分子结合成功率的重要指标。亲和力越高,意味着蛋白质与小分子结合得越紧密、稳定,就像两块吸铁石间的吸引力。
PocketGen 在亲和力指标上的表现超越了传统方法 5 个百分点,显著提升了蛋白质与小分子结合的可能性。
PocketGen 的综合表现使其在蛋白质口袋设计领域树立了新标杆,为药物研发和分子设计等领域提供了更加高效、精准的工具。
图 3:(a)生成效率比较。(b)生成多样性比较。(c)PocketGen可以灵活生成不同大小的蛋白质口袋。(来源:论文)
PocketGen 推进了深度生成模型用于功能蛋白质设计,为进一步理解蛋白质设计规律并开展生物实验验证奠定了基础。
未来,在药物开发、生物传感器、酶催化等领域具有广泛的应用前景。这种跨领域、跨技术的协同创新,不仅为生物工程和药物研发提供了全新思路,也展现了人工智能与自然科学融合的无限可能。
参考文献
[1] Zhang Z, Shen W X, Liu Q, et al. Efficient generation of protein pockets with PocketGen. Nature Machine Intelligence, 2024: 1-14.
[2] Zhang Z, Lu Z, Zhongkai H, et al. Full-atom protein pocket design via iterative refinement. Advances in Neural Information Processing Systems, 2023, 36: 16816-16836.
[3] Zhang Z, Zitnik M, Liu Q. Generalized Protein Pocket Generation with Prior-Informed Flow Matching. Advances in Neural Information Processing Systems, 2024.