编辑 | 萝卜皮
单细胞测序是分析复杂疾病细胞复杂性的重要工具。然而,其高昂的成本阻碍了其在广泛的生物医学研究中的应用。
传统的细胞反卷积方法可以从更便宜的批量测序数据中推断出细胞类型比例,但它们无法提供单细胞水平分析所需的精细分辨率。
为了克服这一挑战,加拿大麦吉尔大学(McGill University)的研究人员引入了「scSemiProfiler」,这是一个创新的计算框架,将深度生成模型与主动学习策略结合在一起。
该方法具有高度精确性,能推断出大群体中的单细胞概况。可与真实的单细胞分析数据紧密结合,支持精细的细胞分析。
该研究以「scSemiProfiler: Advancing large-scale single-cell studies through semi-profiling with deep generative models and active learning」为题,于 2024 年 7 月 16 日发布在《Nature Communications》。
单细胞测序大幅改变了生物研究,揭示了细胞间的细微差异,促进了生物标志物发现和个性化治疗策略的发展。然而,单细胞测序的高昂成本(例如 2023 年测序 2 万个细胞的成本估计为 6000 美元),这是限制其大规模研究的重要因素。
为降低成本,有多种解卷积方法解析混合数据中的细胞群体,包括 CIBERSORTx、Bisque、DWLS、MuSiC、NNLS 和 EPIC,以及使用深度神经网络的 Scaden 和 TAPE。这些方法在经济性和数据分辨率之间取得了平衡,但在分辨率和准确性上仍存在局限,无法达到单细胞级别的分析。
单细胞分辨率分析对于深入理解疾病复杂性及其治疗反应至关重要。它可以进行 UMAP、路径激活模式分析、生物标志物发现、基因功能富集、细胞-细胞相互作用和拟时序轨迹分析,结合机器学习技术,有助于解码细胞异质性和动态变化。
为了应对之前强调的挑战,并为了提供一种经济有效的广泛单细胞测序方法,麦吉尔大学的研究团队推出了 single-cell Semi-profiler (scSemiProfiler)。这种深度生成计算工具,旨在显著提高单细胞分析的精度和深度。
图示:scSemiProfiler 方法概述。(来源:论文)
它是一种更经济、更可扩展的单细胞测序选项,从而以更高的可及性促进高级单细胞分析。
该工具有效地将主动学习技术与深度生成神经网络算法结合起来,旨在以更实惠的价格提供单细胞分辨率数据。scSemiProfiler 旨在同时实现 semi-profiled 过程中的两个基本目标。
图示:semi-profiled 和 real-profiled 在 COVID-19 数据集的总体比较。(来源:论文)
一方面,scSemiProfiler 的主动学习模块整合了深度学习模型和大量数据的信息,智能地选择最具信息量的样本进行实际的单细胞测序。
另一方面,scSemiProfiler 的深度生成模型组件有效地将来自代表性样本的单细胞数据与该群体的批量测序数据合并,通过计算推断剩余非代表性样本的单细胞数据。
图示:semi-profiled 和 real-profiled 在 iMGL 数据集的比较分析。(来源:论文)
这种深度神经网络方法可以将目标批量数据更详细地「反卷积」为精确的单细胞水平测量值。因此,scSemiProfiler 只需对批量测序和代表性单细胞测序进行预算,即可输出研究中所有样本的单细胞数据。
目前为止,scSemiProfiler 是同类产品中第一个专为从大量测序数据中进行如此复杂的单细胞水平计算分解而设计的产品。
图示:主动学习展示了其在单细胞水平上选择性分析最具信息量的样本的能力。(来源:论文)
通过对各种数据集的全面评估,scSemiProfiler 始终如一地生成 semi-profiled 的单细胞数据,这些数据与实际的单细胞数据集紧密相关,并准确反映下游任务的结果。
因此,scSemiProfiler 有助于改善获取单细胞数据以进行大规模研究,包括疾病队列研究等。
通过降低大规模单细胞研究的成本,scSemiProfiler 有望促进单细胞技术在广泛的生物医学研究中的应用。这一进步将扩大生物学研究的范围并增强其深度。
论文链接:https://www.nature.com/articles/s41467-024-50150-1