将合成生物学与AI相结合,以无细胞方式寻找新抗生素

编辑 | 萝卜皮生物活性肽是健康和医学的关键分子。深度学习为生物活性肽的发现和设计带来了巨大的希望。然而,需要合适的实验方法来以高通量和低成本验证候选物。马克斯·普朗克陆地微生物研究所(Max Planck Institute for Terrestrial Microbiology)的研究团队建立了无细胞蛋白质合成(CFPS)管线,用于直接从 DNA 模板快速、廉价地生产抗菌肽 (AMP)。为了验证该平台,研究人员使用深度学习从头设计了数千个 AMP。使用计算方法,研究人员对使用 CFPS 管线生成和筛选的 50

图片

编辑 | 萝卜皮

生物活性肽是健康和医学的关键分子。深度学习为生物活性肽的发现和设计带来了巨大的希望。然而,需要合适的实验方法来以高通量和低成本验证候选物。

马克斯·普朗克陆地微生物研究所(Max Planck Institute for Terrestrial Microbiology)的研究团队建立了无细胞蛋白质合成(CFPS)管线,用于直接从 DNA 模板快速、廉价地生产抗菌肽 (AMP)。为了验证该平台,研究人员使用深度学习从头设计了数千个 AMP。

使用计算方法,研究人员对使用 CFPS 管线生成和筛选的 500 个候选物进行了优先排序。该团队鉴定了 30 种功能性 AMP,并通过分子动力学模拟、抗菌活性和毒性对其进行了进一步表征。

值得注意的是,六种 de novo-AMP 具有针对多重耐药病原体的广谱活性,并且不会产生细菌耐药性。该工作证明了 CFPS 在 24 小时内高通量、低成本生产和测试生物活性肽的潜力。

该研究以「Cell-free biosynthesis combined with deep learning accelerates de novo-development of antimicrobial peptides」为题,于 2023 年 11 月 8 日发布在《Nature Communications》。

图片

据世界卫生组织称,抗菌素耐药性(AMR)是全球十大健康威胁之一。仅2019年,致病性大肠杆菌、ESKAPE病原体(屎肠球菌、金黄色葡萄球菌、肺炎克雷伯菌、鲍曼不动杆菌、铜绿假单胞菌、肠杆菌)、肺炎链球菌、结核杆菌等多重耐药菌就造成 127 万人死亡。

预计到 2050 年,这一数字每年将达到 1000 万。尽管威胁迫在眉睫,但新型抗菌药物的开发仍然落后。2021 年,虽然有超过 4000 种免疫肿瘤化合物进入临床试验,但只有 40 种抗菌药物接受了临床研究(其中没有一种对多重耐药革兰氏阴性菌有活性),这表明迫切需要增加新型抗菌化合物的开发。

一类有前景的抗菌化合物是抗菌肽(AMP)。一大类 AMP 含有 12-50 个典型氨基酸 (AA) 的线性肽,它们已成为自然界细菌抗菌库以及多细胞生物先天免疫系统的一部分。

与经典抗生素相比,AMP 的耐药性发展减少,主要是因为(i)大多数 AMP 直接作用于细胞膜,(ii)显示相对较高的杀伤率,(iii),对 AMP 的抗性是由相当非特异性的机制赋予的,这减少了突变或水平基因转移事件的机会。总体而言,这使得 AMP 成为下一代抗菌药物的重要候选者。

迄今为止,科学家已对约 5000 种 AMP 进行了表征,其中大部分是天然来源的。然而,这 5000 个 AMP 仅涵盖了大自然可能探索的可能解决方案空间的一小部分(30 个 AA AMP 约为 2030 个)。此外,从基因组和宏基因组中进行 AMP 挖掘受到有限的天然(尚未发现)AMP 以及可用的计算和实验 AMP 挖掘工具的阻碍。因此,科学家从这片未知领域发现新的 AMP 的能力是有限的。

由于随机生成的肽不太可能表现出抗菌特性,因此无限开发 AMP 的一种方法是使用深度学习模型,该模型越来越多地用于从头蛋白质和肽设计。在这种称为生成深度学习的方法中,模型使用未标记的数据来学习训练集中的自然蛋白质序列景观,以提出新的自然蛋白质序列。

这些模型与使用标记数据从蛋白质序列预测蛋白质特定属性(标签)的预测模型不同。生成和预测深度学习最近已用于发现新的 AMP 序列,随后通过单个候选物的化学合成来创建和验证这些序列。虽然这一原理验证展示了深度学习在 AMP 发现中的潜力,但由于缺乏中高通量生产和筛选更多 AMP 候选物的便捷方法,该方法的更广泛应用受到限制。

提高 AMP 生产通量的一种可能性是从化学合成转向基于 DNA 的生物生产方法。然而,在大肠杆菌等微生物中异源表达 AMP 有几个缺点:(i) 它是时间和劳动力密集型的;(ii) 它需要从细胞培养物中克隆、生产和纯化 AMP,最重要的是;(iii) 许多(有效的)AMP 候选物可能不可用,因为它们可能在诱导后杀死生产菌株。

无细胞蛋白质合成(CFPS)为这些挑战提供了一个有前途的解决方案。CFPS 系统是体外转录翻译 (TX-TL) 系统,直接使用 DNA 模板进行蛋白质生物合成,从而可以在活细胞外生产肽。因此,这些系统可以帮助克服潜在的细胞毒性效应,并为从线性 DNA 中快速、小规模平行生产数百种肽开辟道路。

「在深度学习中,神经网络——受人脑启发的算法——从大量数据中学习。这种类型的机器学习对于肽发现和从头设计具有巨大的前景。然而,通常随后会进行肽的化学合成以进行实验验证,这相当困难且耗时,并且严重限制了可以化学合成的肽的数量。」马克斯·普朗克陆地微生物研究所的 Amir Pandi 解释道。

图片

图:通过深度学习和无细胞生物合成从头开发 AMP 的工作流程。(来源:论文)

在这里,马克斯·普朗克陆地微生物研究所 Amir Pandi 所在的团队将深度学习和 CFPS 结合起来,进行从头设计,在 24 小时内快速生产和小规模筛选 AMP,每个单独的 AMP 生产检测成本低于 10 美元(不包括 DNA 片段的成本)。

在探索了约 500,000 个理论序列后,研究人员筛选了 500 个 AMP 候选物,鉴定出 30 个功能性 AMP,它们与任何天然序列完全无关。值得注意的是,其中六种 AMP 对多重耐药病原体表现出高抗菌活性,没有出现耐药性,对人体细胞只有极小的毒性。

虽然在该研究中,研究人员使用 CFPS 管线来合成含有天然氨基酸的线性肽,但未来可以利用的 CFPS 的独特优势是可以合成含有环和非规范氨基酸的肽。不过,目前的 CFPS 在表达具有难以合成基序的肽时可能面临困难。

此外,肽的表达性和结构以及与 PURE 成分可能的相互作用可能会导致假阴性结果。幸运的是,CFPS 的吞吐量通过筛选大量候选人来弥补这种情况。请注意,肽序列越长(抗菌特异性越高),化学合成就越困难,CFPS 工作就越困难。此外,该 CFPS 管线可应用于大分子蛋白质。

与其他方法相比,研究人员在寻找功能性 AMP 方面的成功率处于相同范围内,所有测试候选物的成功率为 6%(该团队的最佳生成器-回归器组合为 12.6%),而 Das 团队报告的成功率为 10%。然而,发现的功能性 AMP 总数要高出一个数量级(30 个 AMP 对 2 个),并且速度大幅增加(24 小时对 28 天)且成本相当低(生产一种 AMP 用于并行筛选两种菌株的成本<10 美元,不包括不断降低的 DNA 合成或使用 PCR 引物的成本)。虽然深度学习模型可以提高未来工作的命中率,但像该团队这样的高吞吐量方法可以实现更高的命中率。此外,CFPS 系统的内部制备可以将肽生产成本降低至约 1 美元。

该团队的 de novo AMP 虽然独特且多样化,但与已知的 AMP 具有共同的特性。预计它们主要是富含阳离子和疏水性氨基酸的 α-螺旋肽,并且优选作用于带负电的 IM,这表明该管线能够设计遵循 AMP 一般构建原则的新颖序列。由此产生的 AMP 具有几个特征(经过体内验证)可能有助于其成功转化为治疗应用,包括广谱活性、细菌耐药性发展倾向低、局部或全身使用的潜力以及与现有疗法的协同潜力。

尽管该团队的主要重点是寻找具有广谱活性的 AMP,但该管线与各种机器学习技术相结合,也非常适合具有更具体特征的 AMP 的开发和迭代优化。这些特征可能包括选择性和特异性、稳定性、体内生物利用度、免疫调节特性、与现有药物的协同作用以及耐药性。通过完善这些功能,该管线有潜力推进各种临床应用的 AMP 设计。

总的来说,该团队的工作提供了原理验证,说明如何使用 CFPS 来充分发挥未来机器学习方法的潜力。特别是考虑到 DNA 合成成本不断降低,深度学习和 CFPS 相结合的方法为肽生产和筛选提供了一种时间、成本和劳动力有效的方法。因此,该工作有可能以更高的速度和深度探索 AMP 的设计功能空间。这有望在未来促进基于肽的候选药物的发现和开发。

「我们从无细胞合成生物学、人工智能和高通量方法的结合中获益匪浅。通过增加可在 24 小时内进行实验测试的候选物数量,发现活性抗菌肽的机会增加了。」Pandi 说,「因此,我们的无细胞蛋白质合成管道不仅补充了计算设计的最新进展。它还有潜力更快、更经济地探索生物活性肽的设计和功能之间的关系。」

该团队的负责人之一 Tobias Erb 补充道:「这种合成生物学和机器学习相结合的新方法将会引起生物医学和生物活性肽领域科学家的兴趣。」

论文链接:https://www.nature.com/articles/s41467-023-42434-9

相关报道:https://phys.org/news/2023-11-method-combines-synthetic-biology-ai.html 

相关资讯

可发现药物靶点,哈佛等机构开发了一种对蛋白建模的深度学习方法

编辑 | 萝卜皮翻译延伸对于维持细胞蛋白质稳态至关重要,并且翻译景观的改变与一系列疾病相关。核糖体分析可以在基因组规模上详细测量翻译。然而,目前尚不清楚如何从这些数据中的技术产物中分离出生物变异,并识别翻译失调的序列决定因素。在最新的研究中,中国科学院、哈佛大学(Harvard University)、斯坦福大学(Stanford University)、约翰霍普金斯大学(Johns Hopkins University)的研究团队开发了 Riboformer,一个基于深度学习的框架,用于对翻译动态中上下文相关的变

生成394,760种蛋白质表征,哈佛团队开发AI模型,全面理解蛋白质上下文

编辑 | 萝卜皮了解蛋白质功能和开发分子疗法,需要破译蛋白质发挥作用的细胞类型,解析蛋白质之间的相互作用。然而,对跨生物背景蛋白质相互作用进行建模对于现有算法来说仍然具有挑战性。在最新的研究中,哈佛医学院的研究人员开发了 PINNACLE,这是一种生成情境感知蛋白质表征的几何深度学习方法。PINNACLE 利用多器官单细胞图谱,在情境化蛋白质相互作用网络上进行学习,从 24 种组织的 156 种细胞类型情境中生成 394,760 种蛋白质表征。该研究以「Contextual AI models for single

压缩率达10的48次方,实现蛋白序列空间极端压缩,清华EvoAI登Nature子刊

编辑 | 萝卜皮设计功能更佳的蛋白质需要深入了解序列和功能之间的关系,这是一个难以探索的广阔空间。 通过识别功能上重要的特征来有效压缩这一空间的能力极其宝贵。 清华大学的研究团队建立了一种称为 EvoScan 的方法,用于全面分割和扫描高适应度序列空间,以获得能够捕捉其基本特征(尤其是在高维度中)的锚点。