从基因组到蛋白质组连续翻译,南开大学开发通用跨模态数据分解步骤

编辑 | 萝卜皮近期,科学家在单个细胞内同时分解多组学模态的进展,使得细胞异质性和分子层次结构的钻研成为可能。然而,技术限制导致多模态数据的高噪声和高昂的成本。在这里,南开大学的钻研团队提出了 scButterfly,一种基于双对齐变分自动编码器和数据巩固方案的多功能单细胞跨模态翻译步骤。通过对多个数据集的全面实验,钻研职员证明 scButterfly 在保留细胞异质性、同时翻译各种背景的数据集和展示细胞典型特异性生物学解释方面优于基线步骤。同时,scButterfly 可利用于单模态数据的综合多组学分解、低质量单

从基因组到蛋白质组连续翻译,南开大学开发通用跨模态数据分解步骤

编辑 | 萝卜皮

近期,科学家在单个细胞内同时分解多组学模态的进展,使得细胞异质性和分子层次结构的钻研成为可能。然而,技术限制导致多模态数据的高噪声和高昂的成本。

在这里,南开大学的钻研团队提出了 scButterfly,一种基于双对齐变分自动编码器和数据巩固方案的多功能单细胞跨模态翻译步骤。

通过对多个数据集的全面实验,钻研职员证明 scButterfly 在保留细胞异质性、同时翻译各种背景的数据集和展示细胞典型特异性生物学解释方面优于基线步骤。

同时,scButterfly 可利用于单模态数据的综合多组学分解、低质量单细胞多组学的数据巩固以及 scATAC-seq 数据的自动细胞典型正文等方面。此外,scButterfly 可以推广到不配对数据训练、扰动响应分解和连续翻译。

该钻研以「scButterfly: a versatile single-cell cross-modality translation method via dual-aligned variational autoencoders」为题,于 2024 年 4 月 6 日发布在《Nature Communications》。

从基因组到蛋白质组连续翻译,南开大学开发通用跨模态数据分解步骤

单细胞测序技术的进步带来了多种单细胞分解模态,这些模态可以展示细胞的异质性。例如,scRNA-seq 用于测量基因表达,scATAC-seq 用于分解染色质可及性。

然而,单模态数据可能无法完全捕捉细胞内分歧基因调控层面的相互作用,因此提出了多模态单细胞分解,以获得更全面的细胞视图。尽管如此,多模态分解的广泛利用受到技术复杂性、成本和数据噪声等因素的影响。

为了解决这些问题,钻研者提出了多种计算步骤进行单细胞跨模态转换,如 BABEL、Polarbear 和 JAMIE 等,这些步骤通过将分歧模态的数据嵌入共享潜在空间来实现转换。

虽然这些步骤在一定程度上取得了进展,但单细胞跨模态转换仍面临挑战,包括数据的高维度和变异性、dropout 事件导致的假零问题、数据巩固策略的缺乏、样本间变异和生物学背景差异、以及模型训练中配对多模态数据的不可用性。

此外,跨模态转换器的系统评估和利用,如数据整合分解、细胞典型正文和多模态数据巩固等,尚未得到充分探索。

为了应对这些挑战,南开大学的钻研职员开发了 scButterfly,这是一种多功能框架,能够进行单细胞跨模态翻译和多种广泛的利用。

从基因组到蛋白质组连续翻译,南开大学开发通用跨模态数据分解步骤

图示:scButterfly概述。(来源:论文)

scButterfly 首先为每种模态训练一个掩码 VAE,以学习各个模态内的潜在因素,然后在语义层面同时对分歧模态的潜在表示进行双重对齐,从而学习跨模态关系。

此外,该团队引入了一种数据巩固方案来增加训练样本,促退细胞间变异的表征,并实现对不配对数据的对角线训练。该钻研重点是染色质和转录组图谱之间的翻译,并进一步钻研转录组和蛋白质组图谱之间复杂的相互作用。

从基因组到蛋白质组连续翻译,南开大学开发通用跨模态数据分解步骤

图示:表观基因组和转录组之间的跨模态翻译性能。(来源:论文)

基于对多个数据集的综合实验,钻研职员证明 scButterfly 优于跨模态翻译的基线步骤,细胞异质性得到很好的保留,并且在分歧的设置中始终表现良好,即使分歧数据集的测序方案差异很大(当用于训练的多组学数据不配对或稀疏时,或者当要翻译的单模态数据来自分歧批次或包含新的细胞典型时)。此外,scButterfly 可以保留原始数据中微妙的细胞典型,并通过细胞典型特异性富集分解展示有价值的生物学见解。

从基因组到蛋白质组连续翻译,南开大学开发通用跨模态数据分解步骤

图示:scButterfly的广泛利用。(来源:论文)

钻研职员还展示了 scButterfly 在单模态数据的综合多组学分解、低质量单细胞多组学的数据巩固以及 scATAC-seq 数据的自动细胞典型正文方面的广泛利用。此外,我们创新的数据巩固和最佳传输策略进一步实现了对不配对多组学数据的对角线模型训练,并分别促退了单细胞扰动响应的分解。

钻研职员还证明了 scButterfly 从表观基因组到转录组再到蛋白质组的连续翻译能力,以及 scButterfly 破译细胞典型特异性生物标志物的潜力。

未来还会进一步优化 scButterfly。

首先,钻研职员可以整合来自公共批量组学数据或正文细胞图谱的细胞异质性信息,以促退细胞间变异的表征。此外,还可以结合基因调控机制的先验知识来桥接分歧的模态。

其次,鉴于 scButterfly 的广泛利用,该团队可以对其进行扩展以灵活地适应其他模态,例如空间转录组学和单细胞 Hi-C 数据,因为更多的单细胞模态变得可用,并且 scButterfly 被设计为一个通用框架,可以以模块化方式快速利用于特定场景。

第三,可以考虑使用具有自适应和可解释模型参数的先进机器学习技术,来探索提高 scButterfly 性能的新途径,特别是跨细胞典型和跨器官翻译。

钻研职员在论文里表示:「我们预计我们提出的步骤将促退更全面和更具成本效益的单细胞多模态分解。」

论文链接:https://www.nature.com/articles/s41467-024-47418-x

给TA打赏
共{{data.count}}人
人已打赏
理论

打破「非此即彼」,倾斜 AI 与物理,中国迷信院提出建立可进修的景象模型

2024-5-2 17:14:00

理论

LeCun哈佛演讲PPT放出:唱衰自返回LLM,指明下一代AI方向

2024-5-6 11:57:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索