AI突破抗药性困境!山大团队融合潜在扩散模型与MD设计新型抗菌肽

编辑 | 2049世界卫生组织预测,到 2050 年,抗生素耐药性感染可能导致每年 1000 万人死亡,超越癌症成为人类健康的首要威胁。 随着抗生素滥用导致的耐药性问题日益严重,开发新型抗菌药物已成为当务之急。 在此背景下,抗菌肽(Antimicrobial Peptides,AMPs)因其广谱抗菌活性和低耐药性特征,被视为下一代抗感染药物的希望之星。

图片

编辑 | 2049

世界卫生组织预测,到 2050 年,抗生素耐药性感染可能导致每年 1000 万人死亡,超越癌症成为人类健康的首要威胁。随着抗生素滥用导致的耐药性问题日益严重,开发新型抗菌药物已成为当务之急。

在此背景下,抗菌肽(Antimicrobial Peptides,AMPs)因其广谱抗菌活性和低耐药性特征,被视为下一代抗感染药物的希望之星。然而,传统设计方法受限于化学空间的庞杂性,难以高效探索新型 AMPs。

现有 AI 生成模型虽能加速肽序列设计,却面临两大瓶颈:生成序列多样性不足(相似度普遍高于 0.7),且抗真菌肽研究几乎空白。

针对这一挑战,山东大学药学院研究团队创新性地将潜在扩散模型(Latent Diffusion Model,LDM)与分子动力学模拟结合,开发出 AMP 设计新范式。实验显示,该方法生成的肽序列相似度低至 0.5686,其中 AMP-29 对耐药性白色念珠菌的抑制浓度(MIC)达 6.25 μM,体内疗效显著。

该研究以「Artificial intelligence using a latent diffusion model enables the generation of diverse and potent antimicrobial peptides」为题,发表于 2025 年 2 月 5 日的《Science Advances》。

图片

研究背景

抗菌肽通过破坏微生物细胞膜发挥杀菌作用,其多靶点机制可有效延缓耐药性产生。AI辅助设计虽能提升开发效率,现有方法却陷入两难:基于筛选的模型需遍历指数级化学空间,计算成本高昂;生成式模型虽能探索更大空间,但序列相似度居高不下,且大多数研究聚焦于抗菌肽,抗真菌肽设计研究相对较少。

究其根本,传统生成对抗网络(GAN)和变分自编码器(VAE)难以捕捉 AMPs 的复杂序列特征。扩散模型(Diffusion Model)虽在图像生成中表现卓越,但其直接应用于蛋白质序列设计时,存在维度灾难和特征解耦困难。

研究团队突破性地提出:通过潜在空间降维,将序列生成与物化属性解耦,并引入条件约束机制,实现 AMPs 的定向生成。这一技术路径为突破多样性瓶颈提供了全新可能。

模型架构与训练策略

研究团队构建了基于 Transformer 的双阶段架构,通过变分自编码器将可变长度肽序列映射至 128 维潜在空间。核心创新在于引入蛋白质语言模型 ESM2 650M 进行特征提取,使潜在变量能够编码高阶结构信息。

扩散阶段采用 BERT 编码器构建条件约束机制。在预训练 48 万条通用肽序列后,使用 1:10 的正负样本比例进行微调,使模型能区分 AMPs 与非 AMPs。

通过调节噪声缩放因子(Scaling Factor),模型在保持多样性的同时,将序列与训练集的相似度控制在 0.5686±0.0720,较其他现有方法显著降低

图片

图示:基于潜在扩散模型的 AMP 生成流程。(来源:论文)

筛选机制与实验验证

生成后的 60 万候选序列需经过严格筛选。第一级集成分类器(RNN-CNN-Transformer)以 91% 的准确率初筛潜在 AMPs;第二级通过 CD-HIT 聚类(阈值 0.6)提升多样性;第三级结合随机森林模型与粗粒度分子动力学模拟,预测肽-膜相互作用。

图片

图示:生成肽的理化性质与活性验证。(来源:论文)

关键突破在于分子动力学筛选体系:通过构建 3:1 POPC/POPG 膜模型,模拟 500 ns 内肽与膜的相互作用。结果显示,活性肽(如 AMP-24)能深入嵌入膜内并引发脂质重排,而非活性肽仅吸附于膜表面。

体内实验中,2% AMP-29 凝胶处理 24 小时可显著降低小鼠皮肤真菌载量;静脉注射 AMP-24(40 mg/kg)显著减轻肺纤维化,且心脏、肝脏未见毒性损伤。

值得注意的是,AMP-24 对革兰阴性菌表现出独特的作用机制:其通过形成螺旋结构平行插入膜内,引发环形孔洞效应,该机制经全原子分子动力学模拟验证。

图片

图示:AMP-24与 AMP-29 的机制与疗效。(来源:论文)

未来展望

本研究将潜在扩散模型应用于抗真菌肽设计,成功提高了序列多样性。通过融合语言模型特征编码与多物理场筛选,实现了「生成-验证」闭环。

然而,当前模型尚未整合二级结构等关键参数,导致部分候选肽存在溶血毒性。未来研究可引入强化学习,将毒性预测作为生成约束条件;同时拓展至其他类型的功能性肽设计。

论文链接:https://www.science.org/doi/10.1126/sciadv.adp7171

相关资讯

用于抗体设计的深度生成蛋白语言模型

编辑 | 萝卜皮用于治疗应用的单克隆抗体的发现和优化依赖于大型序列库,但受到低溶解度、低热稳定性、高聚集和高免疫原性等可开发性问题的阻碍。在数百万个蛋白质序列上训练的生成语言模型是按需生成逼真、多样化序列的强大工具。约翰霍普金斯大学的科学家和工程师团队提出了免疫球蛋白语言模型 (IgLM),这是一种深度生成语言模型,用于通过重新设计可变长度的抗体序列跨度来创建合成库。IgLM 将抗体设计制定为基于自然语言文本填充的自回归序列生成任务。该团队在 558M 抗体重链和轻链可变序列上训练 IgLM,以每个序列的链类型和来

制药新工具、有望规避免疫反应,多伦多大学团队用AI框架重新设计参与基因治疗的关键蛋白质

编辑 | 萝卜皮当下,蛋白质设计深度生成模型的快速进展主要集中在具有大量数据的小蛋白质上。这些模型在天然序列有限的大蛋白上表现不佳,例如腺病毒和腺相关病毒的衣壳蛋白,它们是基因治疗的常见递送载体。生成合成病毒载体血清型可以克服大多数基因治疗接受者表现出的强大的预先存在的免疫反应。多伦多大学的研究人员提出了一种变异自动编码器(ProteinVAE),它可以生成合成病毒载体血清型,而无需预先存在的中和抗体的表位。将预先训练的蛋白质语言模型纳入编码器中以提高数据效率,并使用基于反卷积的上采样进行解码以避免长蛋白质序列生成

模拟5亿年的进化信息,首个同时推理蛋白质序列、结构和功能的生物学大模型

编辑 | 萝卜皮在三十亿年的自然进化历程中,现存蛋白质的形态得以形成,经历了漫长的自然筛选过程。进化如同在地质时间尺度上进行的平行实验,通过随机突变和选择机制,依据蛋白质的序列、结构与功能进行筛选。在这里,EvolutionaryScale 的研究人员展示了在进化产生的标记上训练的语言模型可以充当进化模拟器,用于生成不同于已知蛋白质序列的功能性蛋白质。研究人员提出了 ESM3,这是一种前沿的多模态生成语言模型,可推理蛋白质的序列、结构和功能。ESM3 可以结合其模态来遵循复杂的提示,并且对生物学对齐(biologi