编辑 | 白菜叶
基因组规模代谢模型 (GEM) 是展望生物体细胞代谢和生理状态的强大工具。然而,由于学界对代谢过程的了解不完善,即使是精心设计的 GEM 也存在知识缺口。现有的间隙弥补步骤通常需要表型数据作为输出,来梳理缺失的反馈。在实行数据可用之前,科学家仍然缺乏一种快速准确地填补代谢网络缺口的计算步骤。
斯隆凯特琳癌症中心(Memorial Sloan Kettering Cancer Center)的研究人员提出了一种鉴于深度进修的步骤——CHEbyshev Spectral HyperlInk pREdictor (CHESHIRE)——纯粹从代谢网络拓扑展望 GEM 中缺失的反馈。
研究证明 CHESHIRE 在展望超过 926 个高质量和中等质量 GEM 的人为移除反馈方面,优于其他鉴于拓扑的步骤。此外,CHESHIRE 能够改进 49 个 GEM 草图对发酵产物和氨基酸分泌物的表型展望。
该研究以「Teasing out missing reactions in genome-scale metabolic networks through hypergraph learning」为题,于 2023 年 4 月 25 日发布在《Nature Communications》。
展望生物体新陈代谢具有挑战性
作为生物体新陈代谢的数学表示,基因组规模代谢模型(GEM)通过两个矩阵提供了全面的基因-反馈-代谢物连通性:将代谢物与其反馈相关联的化学计量矩阵;反馈基因矩阵将反馈与其相应的酶和基因相关联。GEM 是展望生物体内代谢通量的强大计算工具。
单独使用或与高通量数据结合使用,GEM 可以产生机理见解和可证伪的展望,从而逐步推进生物医学领域的各个学科,包括代谢工程、微生物生态学和药物发现。最近,全基因组测序数据的快速增长引发了自动重建管线生成的草图 GEM 的激增。
然而,这些草案模型包含知识差距,因此需要全面的人为管理,例如,由于不完整的基因组和功能注释而发现缺失的反馈。因此,初始 GEM 的质量对于手动管理所花费的时间、改进后模型的质量以及最终在生物医学应用中的效用有着深远的影响。
学界已经设计了许多鉴于优化的间隙弥补步骤来梳理草图 GEM 中缺失的反馈。尽管它们的输出数据类型、目标和算法存在很大差异,但它们通常遵循两个步骤:(1)找到无法生产或消耗的死端代谢物和/或草案模型展望与实行数据之间的一些不一致(例如, 增长概况);(2)添加一组反馈来解决死胡同和/或不一致。鉴于优化的步骤通常需要数据作为输出来识别模型模拟数据的不一致性。
然而,非模式生物的实行数据并不容易获得,因此限制了这些工具的实用性。例如,大多数肠道生物被认为是“不可培养的”,它们的功能仍然未知。即使对于可培养的生物体,高通量表型筛选,即寻找具有所需表型的生物体,也依赖于微生物提取物或基因修饰的分析,这可能变得复杂、耗时且昂贵。
鉴于可培养生物及其基因组的可用性不断增加,迫切需要仅从基因组序列中快速准确地对代谢表型进行计算机展望。尽管这些展望是理论上的,但下游实行考证对资源的需求可能更少。
一些完全鉴于拓扑且不需要表型数据作为输出的间隙弥补步骤包括:(1)鉴于通量一致性恢复网络连接的经典步骤,例如 GapFind/GapFill 和 FastGapFill;(2) 最先进的机械进修步骤,利用先进的机械进修技术,例如神经超链接展望器 (NHP) 和鉴于 Clique Closure 的协调矩阵最小化(C3MM)。
机械进修步骤将 GEM 中缺失反馈的展望框定为展望超图上超链接的任务。与每一个链接连接两个节点的图相比,超图允许每一个超链接连接两个以上的节点。值得注意的是,代谢网络或任何生化反馈网络都有一个非常自然的超图表示:每一个分子种类都是一个节点,每一个反馈都是连接其中涉及的所有分子种类的超链接。
鉴于拓扑的机械进修步骤的局限性
现有的鉴于拓扑的机械进修步骤存在明显的局限性。C3MM 具有集成的训练展望过程,其中包括训练期间的所有候选反馈(从反馈池中获得)。因此,它的可扩展性有限(即,它无法处理大型反馈池),并且必须为每一个新反馈池重新训练模型。虽然鉴于神经网络的步骤 NHP 将候选反馈与训练分开,但它在生成节点特征时使用图来逼近超图,这会导致高阶信息的丢失。
更重要的是,这两种步骤都针对少数 GEM(缺乏全面测试)进行了基准测试,并且仅使用通过从输出 GEM 中随机删除反馈引入的人为间隙进行了内部考证(缺乏对展望代谢表型的考证,即外部考证)。
CHESHIRE
斯隆凯特琳癌症中心(Memorial Sloan Kettering Cancer Center)的研究人员开发了一种称为 CHESHIRE(CHEbyshev Spectral HyperlInk pREdictor)的步骤来克服现有机械进修步骤的局限性。CHESHIRE 只需要一个代谢网络进行训练,并输出来自反馈池的候选反馈的置信度分数。
内部考证方面,CHESHIRE 在从 108 个 BiGG 模型和 818 个 AGORA 模型中恢复人为去除的反馈的系统测试中优于 NHP 和 C3MM。
外部考证方面,研究人员评估了 CHESHIRE 展望代谢表型的能力。使用从常用管线(CarveMe11 和 ModelSEED)重建的 49 个草图 GEM,结果表明 CHESHIRE 改进了这些 GEM 是否产生发酵代谢物和氨基酸的理论展望。
论文链接:https://www.nature.com/articles/s41467-023-38110-7