压缩率达10的48次方,实现蛋白序列空间极端压缩,清华EvoAI登Nature子刊

编辑 | 萝卜皮设计功能更佳的蛋白质需要深入了解序列和功能之间的关系,这是一个难以探索的广阔空间。 通过识别功能上重要的特征来有效压缩这一空间的能力极其宝贵。 清华大学的研究团队建立了一种称为 EvoScan 的方法,用于全面分割和扫描高适应度序列空间,以获得能够捕捉其基本特征(尤其是在高维度中)的锚点。

图片

编辑 | 萝卜皮

设计功能更佳的蛋白质需要深入了解序列和功能之间的关系,这是一个难以探索的广阔空间。通过识别功能上重要的特征来有效压缩这一空间的能力极其宝贵。

清华大学的研究团队建立了一种称为 EvoScan 的方法,用于全面分割和扫描高适应度序列空间,以获得能够捕捉其基本特征(尤其是在高维度中)的锚点。

该方法适用于任何能够与转录输出耦合的生物分子功能研究。

然后,研究人员开发深度学习和大型语言模型,以从这些锚点准确地重建空间,从而无需先前的同源性或结构信息即可计算预测新的、高度拟合的序列。

他们将这种混合实验计算方法(称为 EvoAI)应用于阻遏蛋白,发现仅 82 个锚点就足以压缩高适应度序列空间,压缩率为 1048。

该研究以「EvoAI enables extreme compression and reconstruction of the protein sequence space」为题,于 2024 年 11 月 11 日发布在《Nature Methods》。

图片

蛋白质工程和设计可以创建具有优化功能的蛋白质,用于生物技术、医学和合成生物学的各种应用。

蛋白质工程的基本挑战是理解和操纵蛋白质适应度景观,这是一个高维且复杂的空间,包含大量可能的序列和功能。

尽管过去几十年来科学家们进行了大量尝试来寻找这个空间中的高适应度序列,但我们对这个空间的规则和特征的理解仍然比较浅层。

虽然现有的定向进化技术能提供有价值的信息,但这些实验方法需要在精确度与覆盖度之间进行权衡,且通常无法充分考虑高维空间中的自然选择压力。

计算方法,如基于结构或序列的建模,虽然能评估更大的序列空间,但受限于训练数据的可用性,且往往忽略了生物学因素。

EvoAI

理想的方案应结合高通量实验数据和高效的计算模型,通过识别「锚点」来压缩设计空间,为深度学习模型提供指导,探索整个适应性景观。

在最新的研究中,清华大学的研究人员开发了 EvoAI,这是一种经验性地询问序列空间,然后对其进行建模、压缩和重建的方法。该方法结合了高通量实验进化和计算方法来捕捉和学习空间的基本特征。

图片

图示:EvoScan 方案,蛋白质-蛋白质相互作用进化的开发和验证。(来源:论文)

研究人员首先开发了一种进化扫描方法,该方法通过结合基于 EvolvR 的分段诱变系统来适应噬菌体辅助非连续进化 (PANCE)。

然后,团队开发了一个深度学习和大型语言模型,从这些锚点重建序列空间并设计新的蛋白质,所有十种蛋白质都表现出比野生型(WT)大大提高的活性(高达 11 倍)。

研究人员将 EvoAI 应用于阻遏蛋白,结果显示仅 82 个锚点就足以压缩高适应度序列空间,压缩率为 1048。

图片

图示:EvoScan 生成的 82 个锚点的遗传关系和特征。(来源:论文)

几个重要优势

与现有方法相比,该方法有几个重要优势。

首先,它平衡了现实的适应度优化和序列空间的均匀采样,可以快速探索高维度,生成更多样化和功能性的变体,并提供有关序列功能关系的更丰富信息。

其次,通过在 EvoAI 中集成经验进化扫描和深度学习模型,它可以利用两种方法的优势。它可以利用深度学习学到的属性来动态地指导扫描过程。可解释的深度学习的未来发展可以揭示潜在的规则或模式,并深入了解蛋白质如何适应和克服进化的限制或权衡。

图片

图示:彻底的片段扫描以了解蛋白质-配体相互作用的演变。(来源:论文)

第三,该方法可以拓展和研究缺乏结构信息或涉及具有挑战性的相互作用的蛋白质。实验表明,EvoScan 可以捕获具有多种功能的蛋白质的锚点,例如蛋白质-蛋白质、蛋白质-配体和蛋白质-核酸相互作用。

理论上,该方法应该与任何可以与转录输出耦合的生物分子功能兼容(例如,通过小分子传感器的酶),因此可以应用于研究各种生物分子的序列空间。

同时,研究人员表示,研究中测试的化学空间(例如酶反应)或配体空间(例如蛋白质相互作用)可能有所不同,需要进一步探索。

优化方向与展望

研究人员表示,该方法未来可以进一步优化改进。

接下来,研究人员可以使用具有更多原型间隔区相邻基序选项的 Cas9 变体来增加 gRNA 平铺和突变靶向片段的选择。它们还可以修改编辑系统,一次性在多个位点引入突变,避免宿主切换并加快探索过程。

此外,将 EvoScan 的靶向诱变方法整合到 PACE 中可能会实现对序列空间片段的更深入采样。并且,将 EvoScan 与 Evoracle 等基因型重建方法相结合,可以更系统、更智能地探索序列空间。

另外,该系统的模块化使其非常适合自动化,例如最近报道的 PRANCE 方法,并且可以扩大规模以提供不同蛋白质靶标更全面的适应度景观分析数据,说明高适应度基因型的设计空间的极端压缩性是普遍的还是不寻常的,或者整个蛋白质适应度景观是否可压缩。

图片

图示:锚点和深度学习重建了高适应度基因型的设计空间。(来源:论文)

研究人员还希望他们的方法能够激发人们对基因型和表型之间的关系以及生物系统进化的新见解。设计空间的可压缩性可能表明,大自然以某种方式找到了一种方法,通过达尔文进化论在地球上相对较短的生命期内搜索看似无限的空间。大型有性群体中染色体区域的基因重组可能使这种维度压缩从而促进进化。

然而,重要的是要认识到自然进化是多方面的,受到不同的选择压力、波动的环境条件、条件中性和基因组背景的影响——这些因素在目前的方法中尚未完全考虑。

该方法将来与高通量实验相结合,可能有助于研究生物系统进化结果的路径依赖性,并为生物技术和生物医学应用中的进化和蛋白质设计提供宝贵的见解。

论文链接:https://www.nature.com/articles/s41592-024-02504-2 

相关资讯

探索蛋白质动态变化,新AI方法JAMUN比标准MD模拟更快、更准确

编辑 | 白菜叶蛋白质结构的动态变化对于理解其功能和开发靶向药物治疗至关重要,尤其是对于隐蔽的结合位点。 然而,现有的生成构象集合的方法存在效率低下或缺乏通用性的问题,无法在训练系统之外发挥作用。 分子动力学 (MD) 模拟是当前探索蛋白质运动的标准,但计算成本高昂,且受短时间步长要求的限制,因此难以捕捉较长时间尺度上发生的更广泛蛋白质构象变化。

Science子刊,斯坦福AI方法表示蛋白互作节点,增强功能识别与PPI推理

编辑 | 白菜叶生物网络通过详细描绘基因、蛋白质及其他细胞成分之间的复杂相互作用,为建模生物系统提供了重要工具。 这些网络将实体表示为节点,将其相互作用(从物理连接到功能关联)表示为边,从而为解析生物系统和过程的复杂性奠定了基础。 例如,在蛋白质-蛋白质相互作用(PPI)网络中,复杂的连接关系包含了理解细胞过程和疾病机制的关键信息。

比原始分辨率高36倍,北航、清华团队用AI在多空间组学平台上高分辨率表征组织,登Nature子刊

编辑 | 萝卜皮空间组学的最新进展已将分子类别分析的范围扩展到转录组学之外。然而,许多此类技术都受到空间分辨率的限制,阻碍了科学家深入表征复杂组织结构的能力。现有的计算方法主要侧重于转录组学数据的分辨率增强,缺乏针对各种组学类型的新兴空间组学技术的适应性。在这里,北京航空航天大学和清华大学的研究人员提出了 soScope,这是一个统一的生成框架,旨在提高从各种空间组学技术获得的分子谱的数据质量和空间分辨率。soScope 可以汇总来自组学、空间关系和图像的多模态组织信息,并通过分布先验与组学特定建模联合推断出具有增