编辑 | 萝卜皮
单细胞 RNA 测序 (scRNA-seq) 已广泛用于疾病钻研,其中在分别前提下(包括人口群体、疾病阶段和药物治疗)从捐赠者中收集样本批次。值得注意的是,此类钻研中样本批次之间的悬殊是批次效力引起的技巧混杂因素和前提效力引起的生物变异的混合体。
但是,当前的去除批次效力格式往往同时肃清技巧批次效力和有意义的前提效力,而扰动展望格式仅关注前提效力,导致由于未考虑批次效力而导致基因表达展望不准确。
在最新的钻研中,佐治亚理工学院(Georgia Institute of Technology,GT)的钻研人员介绍了 scDisInFact,这是一个深度学习框架,可以对 scRNA-seq 数据中的批次效力和前提效力从事建模。
scDisInFact 学习将前提效力与批次效力分开的潜在因素,使其能够同时执行三项恣意:批次效力去除、前提相关关键基因检测和扰动展望。
钻研人员在摹拟和真实数据集上评估 scDisInFact,并将其性能与每一个恣意的基线格式从事比较。结果表明,scDisInFact 优于专注于单个恣意的现有格式,为集成和展望多批次多前提单细胞 RNA 测序数据提供了更全面、更准确的格式。
该钻研以「scDisInFact: disentangled learning for integration and prediction of multi-batch multi-condition single-cell RNA-sequencing data」为题,于 2024 年 1 月 30 日发布在《Nature Communications》。
单细胞 RNA 测序 (scRNA-seq) 能够测量实验批次中每一个细胞中基因的表达水平。这项技巧已广泛应用于疾病钻研,从疾病分别阶段或接受分别药物治疗的捐赠者身上收集样本。
因此,每一个样本的 scRNA-seq 计数矩阵与供体的一种或多种生物学状况相关,这些生物学状况可以是年龄、性别、药物治疗、疾病严重程度等。同时,钻研同一疾病的数据集通常是在分别批次中获得的,这会引入跨批次的技巧悬殊(也称为批次效力)。
实际上,疾病钻研数据集中的可用样本可能来自分别的前提和批次。钻研人员将此类数据集称为多批次多前提数据集。在此类数据集中,同一批次生成的分别生物前提的数据矩阵之间存在由前提效力引起的生物变异,而同一前提但分别批次的数据矩阵之间存在批次效力引起的技巧变异。
因此,这些数据矩阵之间的悬殊是批次效力(技巧变异)和前提效力(生物变异)的混合体,这使得充分利用这些数据集潜力的过程变得复杂。
科学家考虑了使用多批次多前提数据集从事疾病钻研时需要解决的一些计算挑战:(1)肃清批次效力,同时保留生物前提效力;(2)检测与生物状况相关的关键基因;(3)展望对应于一定前提的未见数据矩阵,也称为扰动展望恣意。学界已经针对每一个问题分别设计了格式,但没有现有的格式可以共同解决这三个问题。
图示:scDisInFact 概述。(来源:论文)
在最新的钻研中,佐治亚理工学院的钻研团队提出了 scDisInFact(single cell disentangled Integration preserving condition-specific Factors),这是第一个可以执行所有三个恣意的格式:批次效力肃清、前提相关关键基因(CKG)检测以及多批次多前提 scRNA-seq 数据集上的扰动展望。
scDisInFact 是基于解纠缠分自动编码器框架设计的。它将多批次多前提数据集中的变化分解为编码所有数据矩阵共享的生物信息、特定前提的生物信息和技巧批次效力的潜在因素。解开的潜在空间允许 scDisInFact 执行另外两项恣意,即 CKG 检测和扰动展望,并克服每一个恣意现有格式的限制。
特别是,解开的因子允许 scDisInFact 肃清批次效力,同时保留基因表达数据中的前提效力。此外,scDisInFact 扩展了现有扰动展望格式的多功能性,因为 (1) 它可以对多种前提类型的影响从事建模,(2) 它可以跨数据集中的前提和批次的任意拉拢从事数据展望。
钻研人员在肃清批次效力和 CKG 检测方面比较了 scDisInFact 和 scINSIGHT(一种同类型格式,使用非负矩阵分解将 scRNA-seq 矩阵分解为通用模块和前提特定模块。)。由于 scINSIGHT 不从事扰动展望,因此该团队在扰动展望方面将 scDisInFact 与 scGen 和 scPreGAN 从事了比较。
对于肃清批次效力,scDisInFact 仅肃清批次效力并保留数据矩阵之间的生物学悬殊。对于与病情相关的关键基因检测,scDisInFact不仅可以高水平输出CKG,而且扰动展望结果还可以用于寻找在特定细胞或细胞类型中从一种前提拉拢到任何其他前提拉拢悬殊表达的基因。
图示:摹拟数据集上的扰动展望结果。(来源:论文)
对于扰动展望,scDisInFact 对与捐赠者相关的多种前提类型从事建模,并可以展望从前提拉拢到所钻研的任何其他拉拢的数据。这使得在复杂场景中的应用成为可能,例如展望多种药物拉拢的效果。
图示:摹拟数据集的结果。(来源:论文)
该团队在摹拟和真实数据集上测试了 scDisInFact,发现它在各种恣意中都优于基线格式。由于其卓越的性能和多恣意能力,scDisInFact 可用于全面分析多批次多前提 scRNA-seq 数据集,有助于更深入地了解疾病进展和患者对药物治疗的反应。
论文链接:https://www.nature.com/articles/s41467-024-45227-w