更高分辨率，更经济，深度生成模型与主动学习策略结合，推进大规模单细胞研究

作者：ScienceAI 2024-09-03 07:10

编辑 | 萝卜皮单细胞测序是分析复杂疾病细胞复杂性的重要工具。然而，其高昂的成本阻碍了其在广泛的生物医学研究中的应用。传统的细胞反卷积方法可以从更便宜的批量测序数据中推断出细胞类型比例，但它们无法提供单细胞水平分析所需的精细分辨率。为了克服这一挑战，加拿大麦吉尔大学（McGill University）的研究人员引入了「scSemiProfiler」，这是一个创新的计算框架，将深度生成模型与主动学习策略结合在一起。该方法具有高度精确性，能推断出大群体中的单细胞概况。可与真实的单细胞分析数据紧密结合，支持精细的细胞分

编辑 | 萝卜皮

单细胞测序是分析复杂疾病细胞复杂性的重要工具。然而，其高昂的成本阻碍了其在广泛的生物医学研究中的应用。

传统的细胞反卷积方法可以从更便宜的批量测序数据中推断出细胞类型比例，但它们无法提供单细胞水平分析所需的精细分辨率。

为了克服这一挑战，加拿大麦吉尔大学（McGill University）的研究人员引入了「scSemiProfiler」，这是一个创新的计算框架，将深度生成模型与主动学习策略结合在一起。

该方法具有高度精确性，能推断出大群体中的单细胞概况。可与真实的单细胞分析数据紧密结合，支持精细的细胞分析。

该研究以「scSemiProfiler: Advancing large-scale single-cell studies through semi-profiling with deep generative models and active learning」为题，于 2024 年 7 月 16 日发布在《Nature Communications》。

单细胞测序大幅改变了生物研究，揭示了细胞间的细微差异，促进了生物标志物发现和个性化治疗策略的发展。然而，单细胞测序的高昂成本（例如 2023 年测序 2 万个细胞的成本估计为 6000 美元），这是限制其大规模研究的重要因素。

为降低成本，有多种解卷积方法解析混合数据中的细胞群体，包括 CIBERSORTx、Bisque、DWLS、MuSiC、NNLS 和 EPIC，以及使用深度神经网络的 Scaden 和 TAPE。这些方法在经济性和数据分辨率之间取得了平衡，但在分辨率和准确性上仍存在局限，无法达到单细胞级别的分析。

单细胞分辨率分析对于深入理解疾病复杂性及其治疗反应至关重要。它可以进行 UMAP、路径激活模式分析、生物标志物发现、基因功能富集、细胞-细胞相互作用和拟时序轨迹分析，结合机器学习技术，有助于解码细胞异质性和动态变化。

为了应对之前强调的挑战，并为了提供一种经济有效的广泛单细胞测序方法，麦吉尔大学的研究团队推出了 single-cell Semi-profiler (scSemiProfiler)。这种深度生成计算工具，旨在显著提高单细胞分析的精度和深度。

图示：scSemiProfiler 方法概述。（来源：论文）

它是一种更经济、更可扩展的单细胞测序选项，从而以更高的可及性促进高级单细胞分析。

该工具有效地将主动学习技术与深度生成神经网络算法结合起来，旨在以更实惠的价格提供单细胞分辨率数据。scSemiProfiler 旨在同时实现 semi-profiled 过程中的两个基本目标。

图示：semi-profiled 和 real-profiled 在 COVID-19 数据集的总体比较。（来源：论文）

一方面，scSemiProfiler 的主动学习模块整合了深度学习模型和大量数据的信息，智能地选择最具信息量的样本进行实际的单细胞测序。

另一方面，scSemiProfiler 的深度生成模型组件有效地将来自代表性样本的单细胞数据与该群体的批量测序数据合并，通过计算推断剩余非代表性样本的单细胞数据。

图示：semi-profiled 和 real-profiled 在 iMGL 数据集的比较分析。（来源：论文）

这种深度神经网络方法可以将目标批量数据更详细地「反卷积」为精确的单细胞水平测量值。因此，scSemiProfiler 只需对批量测序和代表性单细胞测序进行预算，即可输出研究中所有样本的单细胞数据。

目前为止，scSemiProfiler 是同类产品中第一个专为从大量测序数据中进行如此复杂的单细胞水平计算分解而设计的产品。

图示：主动学习展示了其在单细胞水平上选择性分析最具信息量的样本的能力。（来源：论文）

通过对各种数据集的全面评估，scSemiProfiler 始终如一地生成 semi-profiled 的单细胞数据，这些数据与实际的单细胞数据集紧密相关，并准确反映下游任务的结果。

因此，scSemiProfiler 有助于改善获取单细胞数据以进行大规模研究，包括疾病队列研究等。

通过降低大规模单细胞研究的成本，scSemiProfiler 有望促进单细胞技术在广泛的生物医学研究中的应用。这一进步将扩大生物学研究的范围并增强其深度。

论文链接：https://www.nature.com/articles/s41467-024-50150-1

基于Transformer的新方法，可从纳米孔测序中准确预测DNA甲基化

编辑 | 萝卜皮DNA 甲基化在各种生物过程中起着重要作用，包括细胞分化、衰老和癌症发展。哺乳动物中最重要的甲基化是5-甲基胞嘧啶，主要发生在 CpG 二核苷酸的背景下。全基因组亚硫酸盐测序等测序方法可以成功检测 5-甲基胞嘧啶 DNA 修饰。然而，它们存在读取长度短的严重缺陷，可能会引入扩增偏差。新加坡 A*STAR 的研究人员开发了一种深度学习算法 Rockfish，该算法通过使用纳米孔测序（Oxford Nanopore Sequencing，ONT）显著提高了读取级 5-甲基胞嘧啶检测能力。该研究以「Roc

7/18/2024 2:33:00 PM ScienceAI

灵敏度高达94.9%！牛津团队AI多模态ctDNA检测方法，进行癌症早期筛查

编辑 | 2049在癌症诊疗的漫长征程中，早期检测始终是最具挑战性的环节之一，液体活检技术因其无创性和高灵敏度而备受关注。然而，现有的检测方法大多依赖于深度靶向测序，难以同时整合多模态数据，导致检测灵敏度和特异性受限。正是基于这一技术痛点，牛津大学的研究团队开发了一种基于全基因组 TET 辅助吡啶硼烷测序（TAPS）的多模态循环肿瘤 DNA（ctDNA）检测方法。

1/22/2025 6:28:00 PM ScienceAI

哈工大与腾讯开发：一种专门针对蛋白质组数据设计的反卷积方法

编辑 | 萝卜皮细胞类型反卷积是一种用于从大量测序数据中确定/解析细胞类型比例的计算方法，并且经常用于分析肿瘤组织样本中的不同细胞类型。然而，由于重复性/再现性、参考标准可变以及缺乏单细胞蛋白质组参考数据的挑战，使用蛋白质组数据分析细胞类型的反卷积技术仍处于起步阶段。哈尔滨工业大学、腾讯 AI lab 以及苏黎世联邦理工学院的研究团队合作开发了一种专门针对蛋白质组数据设计的基于深度学习的反卷积方法（scpDeconv）。scpDeconv 使用自动编码器利用来自批量蛋白质组数据的信息来提高单细胞蛋白质组数据的质量，

10/25/2023 11:10:00 AM ScienceAI

更高分辨率，更经济，深度生成模型与主动学习策略结合，推进大规模单细胞研究

相关资讯

基于Transformer的新方法，可从纳米孔测序中准确预测DNA甲基化

灵敏度高达94.9%！牛津团队AI多模态ctDNA检测方法，进行癌症早期筛查

哈工大与腾讯开发：一种专门针对蛋白质组数据设计的反卷积方法