哈工大&南医大开发深度学习框架,用于从单细胞RNA测序数据中识别细胞间相互作用

编辑 | 萝卜皮细胞间相互作用(CCIs)在细胞分化、组织稳态和免疫反应等许多生物过程中发挥着关键作用。随着高通量单细胞RNA测序(scRNA-seq)技术的快速发展,从不断增加的 scRNA-seq 数据中识别CCIs变得非常重要。然而,受算法限制,当前基于统计策略的计算方法忽略了高度稀疏性和异质性的 scRNA-seq 数据中包含的一些关键潜在信息。哈尔滨工业大学和南方医科大学的研究团队开发了一个名为 DeepCCI 的深度学习框架,用于从 scRNA-seq 数据中识别有意义的 CCI。在灵活且易于使用的软件

图片

编辑 | 萝卜皮

细胞间相互作用(CCIs)在细胞分化、组织稳态和免疫反应等许多生物过程中发挥着关键作用。随着高通量单细胞RNA测序(scRNA-seq)技术的快速发展,从不断增加的 scRNA-seq 数据中识别CCIs变得非常重要。然而,受算法限制,当前基于统计策略的计算方法忽略了高度稀疏性和异质性的 scRNA-seq 数据中包含的一些关键潜在信息。

哈尔滨工业大学和南方医科大学的研究团队开发了一个名为 DeepCCI 的深度学习框架,用于从 scRNA-seq 数据中识别有意义的 CCI。在灵活且易于使用的软件的支持下,DeepCCI 可以提供一站式解决方案,以发现有意义的细胞间相互作用并从 scRNA-seq 数据构建 CCI 网络。

该研究以「DeepCCI: a deep learning framework for identifying cell–cell interactions from single-cell RNA sequencing data」为题,于 2023 年 9 月 23 日发布在《Bioinformatics》。

图片

多细胞生命依赖于细胞活动的一致性,而细胞活动又取决于不同细胞类型之间的细胞间相互作用(CCI)。单细胞 RNA 测序(scRNA-seq)技术以前所未有的分辨率水平在理解细胞机制方面取得了显著进展。尽管 scRNA-seq 数据本质上包含可用于识别细胞间通讯的基因表达信息,但探索通常驱动异质性和细胞状态转换的潜在 CCI 仍然是一个巨大的挑战。

细胞背后的信号传导事件通常由各种类型蛋白质的相互作用介导,包括配体-受体(L-R)、受体-受体和细胞外基质-受体相互作用。特别是,多亚基 L-R 复合物对于 CCI 至关重要。一些蛋白质,例如 TGF-β(转化生长因子-β)受体10 和细胞因子受体,需要多亚基组装才能发挥功能。具体而言,在 TGF-β 信号通路中,可溶性配体 TGFB1 与 I 型和 II 型受体(TGFBR1和TGFBR2)的异聚复合物之间的相互作用在糖尿病肾病的发生发展中发挥着重要作用。

为了从 scRNA-seq 数据中识别 CCI,基于 L-R 基因对开发了几种计算策略,例如 SingleCellSignalR、iTALK、CellPhoneDB 和 CellChat。每个策略都包含细胞间相互作用先验知识资源和识别潜在 CCI 事件的方法。然而,这些策略的识别结果通常受到先前 L-R 基因对数据库的全面性的限制。每种方法中使用的不同 L-R 对数据库可能有助于识别相互作用的多样性。此外,识别异质 scRNA-seq 数据中先前未表征的细胞类型是识别 CCI 的前提。

然而,这些方法不能在相互作用识别之前将细胞独立地分类为细胞簇。此外,由于目前捕获单细胞蛋白质组信息的技术困难,定义 CCI 网络的基本事实具有挑战性。最近,基于深度学习的方法在广泛的单细胞研究中展示了它们的实力。然而,目前还没有基于 scRNA-seq 数据进行 CCI 预测的深度学习框架。scRNA-seq 数据与深度学习技术的结合将得到极大扩展,为 CCI 预测提供独特的见解。

在最新的研究中,哈尔滨工业大学和南方医科大学的研究团队开发了 DeepCCI,这是一种基于图卷积网络 (GCN) 的深度学习框架,用于从 scRNA-seq 数据中识别 CCI。为了一站式从 scRNA-seq 数据探索细胞之间的相互作用,

图片

图示:DeepCCI的工作流程。(来源:论文)

DeepCCI 提供了两种深度学习模型:(i) 用于细胞聚类的基于 GCN 的无监督模型,以及 (ii) 用于 CCI 识别的基于 GCN 的监督模型。DeepCCI 通过利用 scRNA-Seq 数据中异质细胞的潜在复杂基因表达模式,在细胞聚类和捕获细胞簇之间具有生物学意义的相互作用方面具有巨大潜力。

DeepCCI 首先学习一个嵌入函数,该函数使用自动编码器 (AE) 和 GCN 将单元联合投影到共享嵌入空间中。通过使用嵌入信息,DeepCCI 将细胞分为几组。然后,该团队手动策划了一个名为 LRIDB 的综合信号分子相互作用数据库,用于与多亚基的 L-R 相互作用。根据 LRIDB,DeepCCI 可以预测给定 scRNA-seq 数据中任何一对簇之间的细胞间串扰。

此外,DeepCCI 还提供了多种可视化输出,以显示每个细胞簇与其他每个细胞簇相互作用的强度或具体程度。研究人员通过将 DeepCCI 应用于几个公开可用的 scRNA-seq 数据集来展示 DeepCCI 的整体功能。结果表明,DeepCCI 在根据 scRNA-seq 数据进行细胞类型聚类和 CCI 预测方面,在捕获细胞之间的生物学关系方面具有出色的潜力。

虽然研究人员根据最全面的 L-R 对数据库和几种公开的统计方法定义了重要的 CCI,但由于缺乏基本事实,对预测的 CCI 进行系统评估具有挑战性。空间分辨转录组技术的最新进展为探索组织中细胞的空间组织提供了机会。因此,整合 scRNA-seq 和空间转录组学数据可能会增加科学家对特定细胞亚群的作用及其在发育、稳态和疾病中相互作用的理解。

未来,该团队将继续增强 DeepCCI 以支持单细胞多组学测序 (scMulti-seq) 数据的整合,并纳入空间转录组学,使分析更易于解释。研究人员计划基于 DeepCCI 模型开发一个更加用户友好的软件系统,并结合模块化分析功能,支持数据格式标准化、质量控制、数据集成、多功能 scMulti-seq 分析、性能评估和交互式可视化。

DeepCCI 的源代码:https://github.com/JiangBioLab/DeepCCI

论文链接:https://academic.oup.com/bioinformatics/article/39/10/btad596/7281356

相关资讯

哈工大开发深度学习框架,用于从单细胞RNA测序识别细胞相互作用

编辑 | 萝卜皮细胞间相互作用(CCIs)在细胞分化、组织稳态和免疫反应等许多生物过程中发挥着关键作用。随着高通量单细胞RNA测序(scRNA-seq)技术的快速发展,从不断增加的 scRNA-seq 数据中识别CCIs变得非常重要。然而,受算法限制,当前基于统计策略的计算方法忽略了高度稀疏性和异质性的 scRNA-seq 数据中包含的一些关键潜在信息。哈尔滨工业大学和南方医科大学的研究团队开发了一个名为 DeepCCI 的深度学习框架,用于从 scRNA-seq 数据中识别有意义的 CCI。在灵活且易于使用的软件

平均准确率达96.4%,中山大学&重庆大学开发基于Transformer的单细胞注释方法

编辑 | 萝卜皮使用测序 (scATAC-seq) 技术对转座酶可及的染色质进行单细胞测定,可在单细胞分辨率下深入了解基因调控和表观遗传异质性,但由于数据的高维性和极度稀疏性,scATAC-seq 的细胞注释仍然具有挑战性。现有的细胞注释方法大多集中在细胞峰矩阵上,而没有充分利用底层的基因组序列。在这里,中山大学与重庆大学的研究人员提出了一种方法 SANGO,通过在 scATAC 数据中的可及性峰周围整合基因组序列来进行准确的单细胞注释。SANGO 在跨样本、平台和组织的 55 个配对 scATAC-seq 数据集

一种多用途深度学习方法,用于CITE-seq和单细胞RNA-seq数据与细胞表面蛋白预测和插补的集成

编辑 | 萝卜皮CITE-seq 是一种单细胞多组学技术,可同时测量单细胞中 RNA 和蛋白质的表达,已广泛应用于生物医学研究,特别是免疫相关疾病和其他疾病,如流感和 COVID-19。尽管 CITE-seq 激增,但生成此类数据的成本仍然很高。尽管数据集成可以增加信息内容,但这带来了计算挑战。首先,组合多个数据集容易产生需要解决的批处理效应。其次,很难组合多个 CITE-seq 数据集,因为不同数据集中的蛋白质面板可能仅部分重叠。整合多个 CITE-seq 和单细胞 RNA 测序 (scRNA-seq) 数据集很