编辑 | 萝卜皮
大型语言模型 (LLM) 在化学和生物医学研究中取得了显著进展,可作为各种任务的多功能基础模型。
浙江大学侯廷军、谢昌谕以及南方医科大学姜志辉等课题组组成的联合团队提出了 AMP-Designer,这是一种基于 LLM 的方法,用于快速设计具有所需特性的抗菌肽 (AMP)。
在 11 天内,AMP-Designer 实现了 18 种具有广谱抗革兰氏阴性细菌活性的 AMP 的从头设计。
体外验证显示成功率为 94.4%,两种候选药物表现出卓越的抗菌功效、最小的血液毒性、在人血浆中的稳定性以及较低的诱发耐药性可能性,小鼠肺部感染实验中细菌负荷显著减少就是明证。从设计到验证的整个过程在 48 天内完成。
尽管数据有限,AMP-Designer 仍擅长创建针对特定菌株的 AMP,其中最佳候选物对痤疮丙酸杆菌的最低抑制浓度为每毫升 2.0 微克。AMP-Designer 集成了先进的机器学习技术,表现出卓越的效率,为抗生素耐药性的创新解决方案铺平了道路。
该研究以「Discovery of antimicrobial peptides with notable antibacterial potency by an LLM-based foundation model」为题,于 2025 年 3 月 5 日发布在《Science Advance》。
背景
细菌抗菌素耐药性(AMR)对全球人类健康构成重大威胁,2019 年全球约 495 万死亡与细菌AMR相关,其中 127 万死亡直接归因于 AMR,预计到 2050 年每年死亡人数将达 1000 万。革兰氏阴性菌对常用抗生素耐药性尤为严重,且自 1968 年喹诺酮类抗生素问世以来,尚无有效新药通过临床阶段。
抗菌肽(AMPs)因其结构功能多样、疗效好且不易产生耐药性,被视为潜在替代传统小分子抗生素的候选,但其抗菌活性较低、毒性不确定、易失活等问题限制了广泛应用。当前研究致力于提升 AMP 活性、降低毒性、增强抗水解能力。
近年来,计算机辅助方法加速了 AMP 设计,但肽序列空间庞大(约 4.5×10^41 种序列),且仅有约 10 种 AMP 获批,表明有效 AMP 分布稀疏,亟需新方法提高设计效率。
近期,ChatGPT、DeepSeek 等大语言模型的兴起为 AMP 设计提供了新思路。AMP 生成作为蛋白质语言建模任务,受益于自然语言处理大模型(LLM)的发展。
类比 NLP 和其他蛋白质设计案例,大规模序列生成模型有望在 AMP 设计中表现出色。提示调优(prompt tuning)逐渐取代传统微调方法,具有更高计算效率和灵活性,能缓解过拟合并有效连接预训练与下游任务,适用于条件生成任务中多样性与成功率的平衡。
AMP-Designer
在最新的工作中,浙大、南医大的研究人员提出了 AMP-Designer,这是一个用于 AMP 设计的综合框架,它集成了 GPT、快速调整、对比学习、知识提炼和强化学习 (RL),然后进行一系列湿实验室分析用来验证所设计的 AMP。
图示:AMP-Designer 概述。(来源:论文)
该方法包括在从 UniProt 中提取的肽数据集上训练以 AMP 为中心的语言模型作为基础模型 AMP-GPT。为了促进在标记的 AMP 数据集上进行迁移学习并生成具有理想特征的肽序列,研究人员使用了 AMP-Prompt,即对比提示学习,同时保持 AMP-GPT 的参数不变。
图示:物理化学性质的比较。(来源:论文)
为了进一步降低计算成本,该团队对 AMP-Prompt 进行了模型蒸馏,将其压缩为由三个门控循环单元 (GRU) 层组成的 RNN,即 AMP-Distillation。
此外,研究人员基于 AMP-GPT 构建了不同细菌物种的最低抑菌浓度(MIC)预测模型 AMP-MIC,提供反馈并促进后续使用 RL 进行筛选。
图示:活动概率和比赛分数分布。(来源:论文)
使用 AMP-Designer,他们实现了针对特定细菌物种的高度多样化和高效 AMP 的快速从头设计。根据 AMP-MIC 提供的平均预测分数,选择并合成前 20 个 AMP 候选物(两个肽在三轮化学合成后失败),从而在 48 天内发现了两个经过湿实验室验证的卓越 AMP,即 KW13 和 AI18。
图示:所选抗菌肽(AMP)的体外生物学特性。(来源:论文)
这两种多肽对多种革兰氏阴性菌和革兰氏阳性菌均表现出很强的体外抗菌活性。值得注意的是,这两种新设计的多肽都表现出较低的脱靶溶血毒性、优异的血浆稳定性,以及对一系列临床来源的耐药革兰氏阴性菌的强效抗菌活性。
亚 MIC 浓度的 KW13 和 AI18 在大肠杆菌中培养 30 代后未诱导耐药性。此外,它们在细菌性肺炎小鼠模型中表现出显著的治疗效果。
图示:KW13 和 AI18 治疗小鼠肺炎的体内疗效。(来源:论文)
AMP-Designer 是一个即插即用的框架。对于新的设计任务,基于训练好的基础模型 AMP-GPT,仅需 3 天左右即可完成设计。
值得一提的是,即使在现实生活中经常遇到的标记数据严重受限的场景中,AMP-Designer 在设计特定 AMP 方面也表现出了出色的效果。
为了说明这种能力,研究人员设计了针对痤疮丙酸杆菌(也称为痤疮皮杆菌)的 AMP,这是一种厌氧微生物,标记数据点极其稀少(不到 20 个)。
鉴于在这种情况下训练痤疮丙酸杆菌的 MIC 预测器从而通过 RL 指导模型优化,是不切实际的,他们使用 AMP-Designer 生成了五种针对痤疮丙酸杆菌的 AMP 候选物,其中三种在后续实验评估中表现出高效力。
成功的少量 AMP 设计显示了 AMP 基础语言模型与 AMP 发现工作流程相结合的出色熟练程度,能够有效导航 AMP 空间。
结语
该研究表明,通过将 LLM 与优化范式相结合,在产生多重肽活性方面具有显著的潜力。本文描述的工作流程基于 AMP 预训练模型 AMP-GPT,具有通用性和可扩展性,因此可以无缝集成到各种下游肽设计任务中。
该项目涵盖计算机模拟、体外和体内三个方面,总共持续了 48 天,其中计算阶段耗时 11 天。
值得注意的是,利用现有的 AMP-GPT 基础模型有望进一步缩短这一时间,使研究人员能够在 3 天内完成特定的肽生成任务。这使得它们可以直接转化为具有多种功能的肽的生成,包括免疫调节、细胞运输、信号传导和代谢过程。
论文链接:https://www.science.org/doi/10.1126/sciadv.ads8932