从基因组到蛋白质组连续翻译,南开大学开发通用跨模态数据分析方法

编辑 | 萝卜皮近期,科学家在单个细胞内同时分析多组学模态的进展,使得细胞异质性和分子层次结构的研究成为可能。然而,技术限制导致多模态数据的高噪声和高昂的成本。在这里,南开大学的研究团队提出了 scButterfly,一种基于双对齐变分自动编码器和数据增强方案的多功能单细胞跨模态翻译方法。通过对多个数据集的全面实验,研究人员证明 scButterfly 在保留细胞异质性、同时翻译各种背景的数据集和揭示细胞类型特异性生物学解释方面优于基线方法。同时,scButterfly 可应用于单模态数据的综合多组学分析、低质量单

从基因组到蛋白质组连续翻译,南开大学开发通用跨模态数据分析方法

编辑 | 萝卜皮

近期,科学家在单个细胞内同时分析多组学模态的进展,使得细胞异质性和分子层次结构的研究成为可能。然而,技术限制导致多模态数据的高噪声和高昂的成本。

在这里,南开大学的研究团队提出了 scButterfly,一种基于双对齐变分自动编码器和数据增强方案的多功能单细胞跨模态翻译方法。

通过对多个数据集的全面实验,研究人员证明 scButterfly 在保留细胞异质性、同时翻译各种背景的数据集和揭示细胞类型特异性生物学解释方面优于基线方法。

同时,scButterfly 可应用于单模态数据的综合多组学分析、低质量单细胞多组学的数据增强以及 scATAC-seq 数据的自动细胞类型注释等方面。此外,scButterfly 可以推广到不配对数据训练、扰动响应分析和连续翻译。

该研究以「scButterfly: a versatile single-cell cross-modality translation method via dual-aligned variational autoencoders」为题,于 2024 年 4 月 6 日发布在《Nature Communications》。

图片

单细胞测序技术的进步带来了多种单细胞分析模态,这些模态可以揭示细胞的异质性。例如,scRNA-seq 用于测量基因表达,scATAC-seq 用于分析染色质可及性。

然而,单模态数据可能无法完全捕捉细胞内不同基因调控层面的相互作用,因此提出了多模态单细胞分析,以获得更全面的细胞视图。尽管如此,多模态分析的广泛应用受到技术复杂性、成本和数据噪声等因素的影响。

为了解决这些问题,研究者提出了多种计算方法进行单细胞跨模态转换,如 BABEL、Polarbear 和 JAMIE 等,这些方法通过将不同模态的数据嵌入共享潜在空间来实现转换。

虽然这些方法在一定程度上取得了进展,但单细胞跨模态转换仍面临挑战,包括数据的高维度和变异性、dropout 事件导致的假零问题、数据增强策略的缺乏、样本间变异和生物学背景差异、以及模型训练中配对多模态数据的不可用性。

此外,跨模态转换器的系统评估和应用,如数据整合分析、细胞类型注释和多模态数据增强等,尚未得到充分探索。

为了应对这些挑战,南开大学的研究人员开发了 scButterfly,这是一种多功能框架,能够进行单细胞跨模态翻译和多种广泛的应用。

图片

图示:scButterfly概述。(来源:论文)

scButterfly 首先为每种模态训练一个掩码 VAE,以学习各个模态内的潜在因素,然后在语义层面同时对不同模态的潜在表示进行双重对齐,从而学习跨模态关系。

此外,该团队引入了一种数据增强方案来增加训练样本,促进细胞间变异的表征,并实现对不配对数据的对角线训练。该研究重点是染色质和转录组图谱之间的翻译,并进一步研究转录组和蛋白质组图谱之间复杂的相互作用。

图片

图示:表观基因组和转录组之间的跨模态翻译性能。(来源:论文)

基于对多个数据集的综合实验,研究人员证明 scButterfly 优于跨模态翻译的基线方法,细胞异质性得到很好的保留,并且在不同的设置中始终表现良好,即使不同数据集的测序方案差异很大(当用于训练的多组学数据不配对或稀疏时,或者当要翻译的单模态数据来自不同批次或包含新的细胞类型时)。此外,scButterfly 可以保留原始数据中微妙的细胞类型,并通过细胞类型特异性富集分析揭示有价值的生物学见解。

图片

图示:scButterfly的广泛应用。(来源:论文)

研究人员还展示了 scButterfly 在单模态数据的综合多组学分析、低质量单细胞多组学的数据增强以及 scATAC-seq 数据的自动细胞类型注释方面的广泛应用。此外,我们创新的数据增强和最佳传输策略进一步实现了对不配对多组学数据的对角线模型训练,并分别促进了单细胞扰动响应的分析。

研究人员还证明了 scButterfly 从表观基因组到转录组再到蛋白质组的连续翻译能力,以及 scButterfly 破译细胞类型特异性生物标志物的潜力。

未来还会进一步优化 scButterfly。

首先,研究人员可以整合来自公共批量组学数据或注释细胞图谱的细胞异质性信息,以促进细胞间变异的表征。此外,还可以结合基因调控机制的先验知识来桥接不同的模态。

其次,鉴于 scButterfly 的广泛应用,该团队可以对其进行扩展以灵活地适应其他模态,例如空间转录组学和单细胞 Hi-C 数据,因为更多的单细胞模态变得可用,并且 scButterfly 被设计为一个通用框架,可以以模块化方式快速应用于特定场景。

第三,可以考虑使用具有自适应和可解释模型参数的先进机器学习技术,来探索提高 scButterfly 性能的新途径,特别是跨细胞类型和跨器官翻译。

研究人员在论文里表示:「我们预计我们提出的方法将促进更全面和更具成本效益的单细胞多模态分析。」

论文链接:https://www.nature.com/articles/s41467-024-47418-x

相关资讯

哈工大与腾讯开发:一种专门针对蛋白质组数据设计的反卷积方法

编辑 | 萝卜皮细胞类型反卷积是一种用于从大量测序数据中确定/解析细胞类型比例的计算方法,并且经常用于分析肿瘤组织样本中的不同细胞类型。然而,由于重复性/再现性、参考标准可变以及缺乏单细胞蛋白质组参考数据的挑战,使用蛋白质组数据分析细胞类型的反卷积技术仍处于起步阶段。哈尔滨工业大学、腾讯 AI lab 以及苏黎世联邦理工学院的研究团队合作开发了一种专门针对蛋白质组数据设计的基于深度学习的反卷积方法(scpDeconv)。scpDeconv 使用自动编码器利用来自批量蛋白质组数据的信息来提高单细胞蛋白质组数据的质量,

哈工大与腾讯团队合作开发:一种专门针对蛋白质组数据设计的深度学习反卷积方法

编辑 | 萝卜皮细胞类型反卷积是一种用于从大量测序数据中确定/解析细胞类型比例的计算方法,并且经常用于分析肿瘤组织样本中的不同细胞类型。然而,由于重复性/再现性、参考标准可变以及缺乏单细胞蛋白质组参考数据的挑战,使用蛋白质组数据分析细胞类型的反卷积技术仍处于起步阶段。哈尔滨工业大学、腾讯 AI lab 以及苏黎世联邦理工学院的研究团队合作开发了一种专门针对蛋白质组数据设计的基于深度学习的反卷积方法(scpDeconv)。scpDeconv 使用自动编码器利用来自批量蛋白质组数据的信息来提高单细胞蛋白质组数据的质量,

腾讯AI Lab 3篇蛋白质组论文入选国际顶级期刊,为阐释生命提供重要技术参考

编辑 | ScienceAI只有蛋白质组才能从根本上阐释生命。3月20日,腾讯 AI Lab实验室3篇蛋白质组论文相继入选国际顶级学术期刊,论文分别在蛋白质组的检测、分析以及探索发现方面提出全新的研究方案,为人类从根本上阐释生命提供重要技术参考。科学界曾经认为,只要绘制出人类基因组序列图,就能了解疾病的根源,但事实并非如此。相同的基因往往有不同的表达,比如,人体不同组织器官的基因组是一样的,但是各个组织器官的蛋白质组不完全一样。人和鼠的基因组的差别仅为1%,但是其形态、性状差别非常大,这就是蛋白质组不一样的体现。中