编辑 | 绿萝
单细胞多组学 (scMulti-omics) 技术允许同时量化多种模态,以捕捉复杂分子机制和细胞异质性的复杂性。现有工具无法有效地揣度出差别细胞范例中 active 生物搜集以及这些搜集对外部刺激的反应。
在此,来自山东大学参与的多机构研讨团队,开发了基于深度进修的单细胞数据多组学综合平台:DeepMAPS,用于从 scMulti-omics 进行生物搜集推理。DeepMAPS 在异构图中对 scMulti-omics 进行建模,并使用多头图(multi-head graph)Transformer 以稳健的方式进修局部和全局上下文中的细胞和基因之间的联系。
通过建立包含细胞和基因的异构图,DeepMAPS 可以同时识别它们的联合嵌入,并能够在完整框架中揣度一定于细胞范例的生物搜集以及细胞范例。此外,异构图 Transformer 的应用以可解释的统一多联系对细胞-基因联系进行建模。通过这种方式,可以大大缩短图中的训练和进修过程,以考虑更远距离的细胞影响。
该研讨以「Single-cell biological network inference using a heterogeneous graph transformer」为题,于 2023 年 2 月 21 日发布在《Nature Communications》 上。
论文链接:https://www.nature.com/articles/s41467-023-36559-0#Sec9
单细胞多组学技术
单细胞测序,例如单细胞 RNA 测序 (scRNA-seq) 和单细胞 ATAC 测序 (scATAC-seq),重塑了细胞异质性的研讨。然而,单个单细胞模态仅反映了遗传特征的快照并部分描述了细胞的特性,导致复杂生物系统中的表征偏差。
单细胞多组学 (scMulti-omics) 允许同时量化多种模态,以充分捕捉复杂分子机制和细胞异质性的复杂性。当与稳健的计算综合方法结合使用时,可以推进各种生物学研讨。
用于 scMulti-omics 数据综合综合的现有工具,可以可靠地预测细胞范例和状态,消除批次效应,并揭示多种模态之间的联系或对齐。然而,大多数现有方法没有明确考虑细胞和模态之间的拓扑信息共享。因此,它们无法同时有效地揣度差别细胞范例的 active 生物搜集和细胞聚类,并且在阐明这些复杂搜集对一定细胞范例的外部刺激的反应方面的能力有限。
最近,图神经搜集 (GNN) 通过传播相邻细胞特征和在全局细胞图中建立细胞-细胞联系,在进修单个细胞的低维表示方面显示出优势。此外,具有差别范例节点和边的异构图已被广泛用于建模多联系知识图。它为整合 scMulti-omics 数据和进修底层细胞范例一定的生物搜集提供了一个自然的表示框架。用于建模和整合异构联系的注意机制的最新发展使深度进修模型可以解释,并使细胞范例特异性生物搜集的揣度成为可能。
在这项工作中,研讨人员开发了 DeepMAPS,这是一个用于从 scMulti-omics 数据揣度细胞范例一定生物搜集的异构图 Transformer 框架。该框架采用了一种先进的 GNN 模型,即异构图 Transformer (Heterogeneous Graph Transformer,HGT),具有以下优点:
(1)它制定了一个以细胞和基因为节点,以它们之间的联系为边的一体化异构图。
(2)该模型捕获细胞和基因之间的相邻和全局拓扑特征,同时建立细胞-细胞联系和基因-基因联系。
(3)HGT 模型中的注意机制能够估计基因对一定细胞的重要性,可用于区分基因贡献,增强生物学解释性。
(4)该模型无假设,不依赖于基因共表达的约束,因此可能揣度出其他工具通常无法发现的基因调控联系。
值得注意的是,DeepMAPS 与 Docker 一起实现为无代码、交互式和非编程的接口,以减轻 scMulti-omics 数据的编程负担。
DeepMAPS 框架概述
总的来说,DeepMAPS 是一个端到端且无假设的深度进修框架,可以从 scMulti-omics 数据揣度一定细胞范例的生物搜集。在 DeepMAPS 框架中有五个主要步骤:
1. 对数据进行预处理,去除低质量细胞和低表达基因,然后根据差别的数据范例采用差别的归一化方法。一个完整的细胞-基因矩阵被生成来表示每个细胞中每个基因的组合活性。针对差别的 scMulti-omics 数据范例采用差别的数据整合方法。
2. 从集成矩阵建立异构图,以细胞和基因为节点,以细胞中是否存在基因为边。
3. 建立 HGT 模型,共同进修细胞和基因的低维嵌入,并生成一个关注分数,表示基因对细胞的重要性。
4. 基于 HGT 进修嵌入和注意力分数预测细胞聚类和功能基因模块。
5. 在每种细胞范例中揣度出差别的生物搜集,例如基因调节搜集(GRN)和基因关联搜集。
图示:DeepMAPS 和 HGT 插图的工作流程。(来源:论文)
通过建立包含细胞和基因的异构图,DeepMAPS 同时识别它们的联合嵌入。并能够在完整框架中揣度一定于细胞范例的生物搜集以及细胞范例。此外,异构图 Transformer 的应用以可解释的统一多联系对细胞-基因联系进行建模。通过这种方式,可以大大缩短图中的训练和进修过程,以考虑更远距离的细胞影响。
DeepMAPS 表现较佳
研讨人员在十个 scMulti-omics 数据集上对 DeepMAPS 的细胞聚类性能进行了基准测试。
图示:DeepMAPS 在细胞聚类方面的基准测试。(来源:论文)
基准测试结果表明,DeepMAPS 在细胞聚类和生物搜集建立方面比现有工具表现更好。
为了进一步将 DeepMAPS 的功能扩展到 GRN 推理,研讨人员使用了 10× Genomics 网站(10× Genomics 在线资源)上提供的单细胞多组 ATAC + 基因表达数据集。原始数据来自 14,566 个快速冷冻的腹内淋巴结肿瘤细胞,该细胞来自一名诊断为弥漫性小淋巴细胞淋巴瘤 (DSLL) 的淋巴结淋巴瘤患者。
图示:DeepMAPS 识别 DSLL 子网中的一定 GRN。(来源:论文)
DeepMAPS 可以建立 GRN 并识别一定于细胞范例的调控模态,以更好地了解患病亚群的细胞状态和发育顺序。
DeepMAPS 展示了在肺肿瘤白细胞 CITE-seq 数据和匹配的弥漫性小淋巴细胞淋巴瘤 scRNA-seq 和 scATAC-seq 数据中推导细胞范例特异性生物搜集的竞争能力。
DeepMAPS 提供了一个多功能且用户友好的门户网站,用于综合 scMulti-omics 数据
由于单细胞测序数据的复杂性,近三年来开发了很多的 webserver 和 docker,但这些工具大多只提供细胞聚类和差异基因综合等最基本的功能。它们不支持 scMulti-omics 数据的联合综合,特别是对生物搜集推理缺乏足够的支持。
在此,研讨人员提供了一个无代码、交互式和非编程的界面,以减轻 scMulti-omics 数据的编程负担。web 服务器支持使用 DeepMAPS 综合多个 RNA-seq 数据、CITE-seq 数据和 scRNA-ATAC-seq数据。
图示:DeepMAPS 门户网站的组织结构。(来源:论文)
服务器中包括三个主要步骤:数据预处理、细胞聚类和注释以及搜集建立。此外,DeepMAPS 服务器支持实时计算和交互式图形表示。用户可以注册一个帐户,以拥有自己的工作空间来存储和共享综合结果。DeepMAPS 搜集服务器还强调了一个额外的功能,用于阐明复杂搜集对一定细胞范例的外部刺激的响应。用户可以上传带有表型信息的元数据文件,选择并重新标记相应的细胞。
有进一步提高 DeepMAPS 功能的空间
虽然 DeepMAPS 在综合 scMulti-omics 数据方面有一定的优势和性能改进,但仍有进一步提高 DeepMAPS 功能的空间。
首先,考虑到异构图表示的复杂性,超大数据集的计算效率可能是一个实际问题。此外,建议在 GPU 上运行 DeepMAPS,这会导致潜在的再现性问题。最后,当前版本的 DeepMAPS 基于具有基因和细胞的二分异构图。为了完全实现 scMulti-omics 综合的端到端框架,可以将二分图扩展为多分图,其中可以将差别的模态作为不相交的节点范例包含在内。
总之,研讨人员将 DeepMAPS 评估为 scMulti-omics 数据和细胞范例特异性生物搜集推理综合综合的先驱研讨。它可能会为深度进修在单细胞生物学领域的部署提供差别的愿景。随着 DeepMAPS 搜集服务器的开发和维护,研讨人员的长期目标是创建一个基于深度进修的生态社区,用于存档、综合、可视化和传播 AI 就绪的 scMulti-omics 数据。