编辑 | 萝卜皮
CITE-seq 是一种单细胞多组学技术,可同时测量单细胞中 RNA 和蛋白质的表白,已广泛应用于生物医学研讨,特别是免疫相关疾病和其他疾病,如流感和 COVID-19。尽管 CITE-seq 激增,但生成此类数据的成本仍然很高。尽管数据集成可以增加信息内容,但这带来了计算挑拨。
首先,组合多个数据集容易产生需要解决的批处理效应。其次,很难组合多个 CITE-seq 数据集,因为不同数据会合的蛋白质面板可能仅部分堆叠。整合多个 CITE-seq 和单细胞 RNA 测序 (scRNA-seq) 数据集很重要,因为这允许利用尽可能多的数据来揭示细胞群的异质性。
为了克服这些挑拨,宾夕法尼亚大学的研讨职员提出了 sciPENN,这是一种多用途的深度进修方法,支持 CITE-seq 和 scRNA-seq 数据集成、scRNA-seq 的蛋白质表白预计、CITE-seq 的蛋白质表白插补、预计的量化和插补不确定性 ,以及从 CITE-seq 到 scRNA-seq 的细胞类型标签转移。跨越多个数据集的综合评估表明,sciPENN 优于其他当前最先进的方法。
该研讨以「A multi-use deep learning method for CITE-seq and single-cell RNA-seq data integration with cell surface protein prediction and imputation」为题,于 2022 年 10 月 27 日发布在《Nature Machine Intelligence》。
单细胞多组学剖析在生物学研讨中的普及,提高了科学家对细胞异质性和亚群的理解。特别是,通过测序(CITE-seq)协议对转录组和表位进行细胞索引的可用性不断提高,极大地促进了这些进展。CITE-seq 允许同时剖析 RNA 基因表白以及一组细胞表面蛋白。
众所周知,蛋白质比 RNA 丰富得多,并且在功能上直接参与细胞信号传导和细胞间相互作用。CITE-seq 具有发现单模态单细胞 RNA 测序 (scRNA-seq) 遗漏的细胞异质性的潜力。尽管 CITE-seq 多模态表白剖析潜力巨大,但技术困难仍然存在。相对于 scRNA-seq 数据,生成 CITE-seq 数据的成本仍然很高。
一种潜伏的解决方案是进修 RNA 和蛋白质之间的关系,从大型参照数据会合借用信息,然后对 scRNA-seq 数据进行蛋白质预计。Seurat 4 和 totalVI 已被引入来实现此功能,但两者都面临局限性。TotalVI 尤其是 Seurat 4 的计算成本很高。
此外,研讨更复杂的场景,其中蛋白质面板不完全堆叠的多个 CITE-seq 数据集被合并,使研讨职员能够增加细胞数量。但是,Seurat 4 没有这样做的能力。虽然totalVI理论上可以做到,但是这个问题还没有探索过。
图示:sciPENN 概述。(来源:论文)
为了应对这些挑拨,宾夕法尼亚大学的研讨职员开发了 sciPENN(单细胞插补蛋白嵌入神经网络),这是一种深度进修模型,可以预计和预算蛋白质表白,整合多个 CITE-seq 数据集,并量化预计和预算不确定性。
研讨职员通过设计内部网络结构以及 sciPENN 的损失函数和优化策略来实现这一点,以最大限度地提高其蛋白质预计和插补精度。该网络构建为密集、batchnorm、ReLu、dropout 层块的堆栈,可帮助模型逐步进修更精细的潜伏细胞表示。这些设计选择使 sciPENN 在监督蛋白质预计方面表现良好。
图示:使用 Seurat 4 PBMC 数据集作为参照的 MALT 数据会合的蛋白质表白预计。(来源:论文)
在该研讨的三个监督剖析中,与 totalVI 和 Seurat 4 相比,sciPENN 始终将参照 CITE-seq 数据集与潜伏嵌入中的查询数据集集成为最佳。sciPENN 的相关性和 RMSE 指标也始终具有最高的蛋白质预计准确度。这种高蛋白质预计准确性使 sciPENN 能够准确地恢复蛋白质表白模式。
图示:单核细胞数据会合的蛋白质表白预计。(来源:论文)
CITE-seq 剖析的一个挑拨是多个 CITE-seq 数据集的集成。这种整合并非微不足道,因为不同 CITE-seq 数据集的蛋白质面板通常有一些不堆叠,这会阻止简单的连接。为了规避这一点,研讨职员为 sciPENN 引入了一种审查损失函数方案,其中蛋白质损失被掩盖,并且当它从细胞中丢失时不会有助于反向传播。
这允许 sciPENN 从具有部分不堆叠蛋白质面板的多个 CITE-seq 数据会合进修,预算每个组成 CITE-seq 数据集的缺失蛋白质,甚至在从部分堆叠的 CITE-seq 数据集进修后预计外部 scRNA-seq 数据会合的蛋白质表白,这是 totalVI 和 Seurat 4 无法完成的任务。此外,sciPENN 比 totalVI 和 Seurat 4 快一个数量级,这使其成为综合 CITE-seq 和 scRNA-seq 数据剖析的理想工具。
论文链接:https://www.nature.com/articles/s42256-022-00545-w