一种多用途深度学习方法,用于CITE-seq和单细胞RNA-seq数据与细胞表面蛋白预测和插补的集成

编辑 | 萝卜皮CITE-seq 是一种单细胞多组学技术,可同时测量单细胞中 RNA 和蛋白质的表达,已广泛应用于生物医学研究,特别是免疫相关疾病和其他疾病,如流感和 COVID-19。尽管 CITE-seq 激增,但生成此类数据的成本仍然很高。尽管数据集成可以增加信息内容,但这带来了计算挑战。首先,组合多个数据集容易产生需要解决的批处理效应。其次,很难组合多个 CITE-seq 数据集,因为不同数据集中的蛋白质面板可能仅部分重叠。整合多个 CITE-seq 和单细胞 RNA 测序 (scRNA-seq) 数据集很

编辑 | 萝卜皮

一种多用途深度学习方法,用于CITE-seq和单细胞RNA-seq数据与细胞表面蛋白预测和插补的集成

CITE-seq 是一种单细胞多组学技术,可同时测量单细胞中 RNA 和蛋白质的表达,已广泛应用于生物医学研究,特别是免疫相关疾病和其他疾病,如流感和 COVID-19。尽管 CITE-seq 激增,但生成此类数据的成本仍然很高。尽管数据集成可以增加信息内容,但这带来了计算挑战。

首先,组合多个数据集容易产生需要解决的批处理效应。其次,很难组合多个 CITE-seq 数据集,因为不同数据集中的蛋白质面板可能仅部分重叠。整合多个 CITE-seq 和单细胞 RNA 测序 (scRNA-seq) 数据集很重要,因为这允许利用尽可能多的数据来揭示细胞群的异质性。

为了克服这些挑战,宾夕法尼亚大学的研究人员提出了 sciPENN,这是一种多用途的深度学习方法,支持 CITE-seq 和 scRNA-seq 数据集成、scRNA-seq 的蛋白质表达预测、CITE-seq 的蛋白质表达插补、预测的量化和插补不确定性 ,以及从 CITE-seq 到 scRNA-seq 的细胞类型标签转移。跨越多个数据集的综合评估表明,sciPENN 优于其他当前最先进的方法。

该研究以「A multi-use deep learning method for CITE-seq and single-cell RNA-seq data integration with cell surface protein prediction and imputation」为题,于 2022 年 10 月 27 日发布在《Nature Machine Intelligence》。

一种多用途深度学习方法,用于CITE-seq和单细胞RNA-seq数据与细胞表面蛋白预测和插补的集成

单细胞多组学分析在生物学研究中的普及,提高了科学家对细胞异质性和亚群的理解。特别是,通过测序(CITE-seq)协议对转录组和表位进行细胞索引的可用性不断提高,极大地促进了这些进展。CITE-seq 允许同时分析 RNA 基因表达以及一组细胞表面蛋白。

众所周知,蛋白质比 RNA 丰富得多,并且在功能上直接参与细胞信号传导和细胞间相互作用。CITE-seq 具有发现单模态单细胞 RNA 测序 (scRNA-seq) 遗漏的细胞异质性的潜力。尽管 CITE-seq 多模态表达分析潜力巨大,但技术困难仍然存在。相对于 scRNA-seq 数据,生成 CITE-seq 数据的成本仍然很高。

一种潜在的解决方案是学习 RNA 和蛋白质之间的关系,从大型参考数据集中借用信息,然后对 scRNA-seq 数据进行蛋白质预测。Seurat 4 和 totalVI 已被引入来实现此功能,但两者都面临局限性。TotalVI 尤其是 Seurat 4 的计算成本很高。

此外,研究更复杂的场景,其中蛋白质面板不完全重叠的多个 CITE-seq 数据集被合并,使研究人员能够增加细胞数量。但是,Seurat 4 没有这样做的能力。虽然totalVI理论上可以做到,但是这个问题还没有探索过。

一种多用途深度学习方法,用于CITE-seq和单细胞RNA-seq数据与细胞表面蛋白预测和插补的集成

图示:sciPENN 概述。(来源:论文)

为了应对这些挑战,宾夕法尼亚大学的研究人员开发了 sciPENN(单细胞插补蛋白嵌入神经网络),这是一种深度学习模型,可以预测和估算蛋白质表达,整合多个 CITE-seq 数据集,并量化预测和估算不确定性。

研究人员通过设计内部网络结构以及 sciPENN 的损失函数和优化策略来实现这一点,以最大限度地提高其蛋白质预测和插补精度。该网络构建为密集、batchnorm、ReLu、dropout 层块的堆栈,可帮助模型逐步学习更精细的潜在细胞表示。这些设计选择使 sciPENN 在监督蛋白质预测方面表现良好。

一种多用途深度学习方法,用于CITE-seq和单细胞RNA-seq数据与细胞表面蛋白预测和插补的集成

图示:使用 Seurat 4 PBMC 数据集作为参考的 MALT 数据集中的蛋白质表达预测。(来源:论文)

在该研究的三个监督分析中,与 totalVI 和 Seurat 4 相比,sciPENN 始终将参考 CITE-seq 数据集与潜在嵌入中的查询数据集集成为最佳。sciPENN 的相关性和 RMSE 指标也始终具有最高的蛋白质预测准确度。这种高蛋白质预测准确性使 sciPENN 能够准确地恢复蛋白质表达模式。

一种多用途深度学习方法,用于CITE-seq和单细胞RNA-seq数据与细胞表面蛋白预测和插补的集成

图示:单核细胞数据集中的蛋白质表达预测。(来源:论文)

CITE-seq 分析的一个挑战是多个 CITE-seq 数据集的集成。这种整合并非微不足道,因为不同 CITE-seq 数据集的蛋白质面板通常有一些不重叠,这会阻止简单的连接。为了规避这一点,研究人员为 sciPENN 引入了一种审查损失函数方案,其中蛋白质损失被掩盖,并且当它从细胞中丢失时不会有助于反向传播。

这允许 sciPENN 从具有部分不重叠蛋白质面板的多个 CITE-seq 数据集中学习,估算每个组成 CITE-seq 数据集的缺失蛋白质,甚至在从部分重叠的 CITE-seq 数据集学习后预测外部 scRNA-seq 数据集中的蛋白质表达,这是 totalVI 和 Seurat 4 无法完成的任务。此外,sciPENN 比 totalVI 和 Seurat 4 快一个数量级,这使其成为综合 CITE-seq 和 scRNA-seq 数据分析的理想工具。

论文链接:https://www.nature.com/articles/s42256-022-00545-w

相关资讯

可多模态数据集成、插补和跨模态生成,中科院&树兰医院&北师大团队开发带有掩码模块的深度生成框架

编辑 | 红菜苔随着单细胞技术的发展,许多细胞特性可以被测量。此外,多组学分析技术可以同时联合测量单个细胞中的两个或多个特征。为了快速处理积累的各种数据,需要多模态数据集成的计算方法。树兰医院、中国科学院和北京师范大学的合作团队提出了 inClust ,一个用于多组学分析的深度生成框架。它建立在之前针对转录组数据所开发的 inClust 的基础上,并增加了两个专为多模式数据处理设计的掩码模块:编码器前面的输入掩码模块和解码器后面的输出掩码模块。InClust 可用于整合来自相似细胞群的 scRNA-seq 和 M

平均准确率达96.4%,中山大学&重庆大学开发基于Transformer的单细胞注释方法

编辑 | 萝卜皮使用测序 (scATAC-seq) 技术对转座酶可及的染色质进行单细胞测定,可在单细胞分辨率下深入了解基因调控和表观遗传异质性,但由于数据的高维性和极度稀疏性,scATAC-seq 的细胞注释仍然具有挑战性。现有的细胞注释方法大多集中在细胞峰矩阵上,而没有充分利用底层的基因组序列。在这里,中山大学与重庆大学的研究人员提出了一种方法 SANGO,通过在 scATAC 数据中的可及性峰周围整合基因组序列来进行准确的单细胞注释。SANGO 在跨样本、平台和组织的 55 个配对 scATAC-seq 数据集

哈工大&南医大开发深度学习框架,用于从单细胞RNA测序数据中识别细胞间相互作用

编辑 | 萝卜皮细胞间相互作用(CCIs)在细胞分化、组织稳态和免疫反应等许多生物过程中发挥着关键作用。随着高通量单细胞RNA测序(scRNA-seq)技术的快速发展,从不断增加的 scRNA-seq 数据中识别CCIs变得非常重要。然而,受算法限制,当前基于统计策略的计算方法忽略了高度稀疏性和异质性的 scRNA-seq 数据中包含的一些关键潜在信息。哈尔滨工业大学和南方医科大学的研究团队开发了一个名为 DeepCCI 的深度学习框架,用于从 scRNA-seq 数据中识别有意义的 CCI。在灵活且易于使用的软件