平均准确率达96.4%,中山大学&重庆大学开发基于Transformer的单细胞诠释办法

编辑 | 萝卜皮使用测序 (scATAC-seq) 技术对转座酶可及的染色质进行单细胞测定,可在单细胞分辨率下深入了解基因调控和表观遗传异质性,但由于数据的高维性和极度稀少性,scATAC-seq 的细胞诠释仍然具有挑战性。现有的细胞诠释办法大多集中在细胞峰矩阵上,而没有充分利用底层的基因组序列。在这里,中山大学与重庆大学的研究人员提出了一种办法 SANGO,通过在 scATAC 数据中的可及性峰周围调整基因组序列来进行准确的单细胞诠释。SANGO 在跨样本、平台和构造的 55 个配对 scATAC-seq 数据集

平均准确率达96.4%,中山大学&重庆大学开发基于Transformer的单细胞诠释办法

编辑 | 萝卜皮

使用测序 (scATAC-seq) 技术对转座酶可及的染色质进行单细胞测定,可在单细胞分辨率下深入了解基因调控和表观遗传异质性,但由于数据的高维性和极度稀少性,scATAC-seq 的细胞诠释仍然具有挑战性。现有的细胞诠释办法大多集中在细胞峰矩阵上,而没有充分利用底层的基因组序列。

在这里,中山大学与重庆大学的研究人员提出了一种办法 SANGO,通过在 scATAC 数据中的可及性峰周围调整基因组序列来进行准确的单细胞诠释。SANGO 在跨样本、平台和构造的 55 个配对 scATAC-seq 数据集上始终优于合作办法。SANGO 还能够通过图 Transformer 学习到的注意力边缘权重来检测未知的肿瘤细胞。

该研究以「Deciphering cell types by integrating scATAC-seq data with genome sequences」为题,于 2024 年 4 月 10 日发布在《Nature Computational Science》。

平均准确率达96.4%,中山大学&重庆大学开发基于Transformer的单细胞诠释办法

单细胞ATAC-seq(scATAC-seq)技术是一种用于探究单个细胞内转座酶可接近性染色质的测序办法,它为理解基因调控机制与表观遗传异质性提供了前所未有的单细胞分辨率。

虽然 scATAC-seq 数据蕴含丰富的生物学信息,但由于其高维度(大量凋谢染色质峰)和极端稀少性(每个细胞仅有一小部分峰有读数),使得从这些数据中准确地辨认和分类细胞范例面临较大困难。

当前主流的细胞诠释办法多聚焦于细胞峰矩阵,但这些办法往往未能充分挖掘和利用与这些峰相关的基因组序列信息。这种忽略可能导致对细胞特异性调控模式的辨认不充分,限制了单细胞表型解析的深度与精度。

中山大学与重庆大学的研究人员提出了一种名为 SANGO(Single-cell Annotation by Integrating Genome Sequences around Open Chromatin Peaks)的新办法,旨在克服现有办法的局限性,通过调整 scATAC-seq 数据中的凋谢染色质峰及其周围基因组序列信息,提升单细胞范例的诠释准确性。

SANGO 的核心假设是,基因组序列信息能提供额外的生物物理和调控线索,有助于更准确地辨认细胞范例和展现潜在的调控模式。

平均准确率达96.4%,中山大学&重庆大学开发基于Transformer的单细胞诠释办法

图示:SANGO 框架的示意图,用于通过调整基因组序列来诠释 scATAC-seq 数据中的细胞。(滥觞:论文)

SANGO办法主要包括两个关键步骤:

首先,利用深度学习模型(如CA-CNN)从 scATAC-seq 数据中提取低维、信息丰富的细胞表示,这些表示充分考虑了每个凋谢染色质峰所处的基因组上下文。

其次,通过图 Transformer 网络(graph transformer network)处理这些表示,消除批次效应,传播相似细胞间的共享信息,并依据参照数据中已知细胞范例的标签对模型进行微调,进而用于预测查问数据中的细胞范例。

对内部数据集进行单细胞范例诠释的机能

通过对 14 组内部数据集(每对包含已诠释参照数据与未诠释查问数据)进行评估,SANGO 平均准确率达到 96.4%,明显优于其他合作办法。SANGO 的优势主要源于其对基因组序列信息的有效利用,当去除序列信息(SANGO-noseq)时,准确率下降 6.4%,进一步证实了序列信息的重要性。

平均准确率达96.4%,中山大学&重庆大学开发基于Transformer的单细胞诠释办法

平均准确率达96.4%,中山大学&重庆大学开发基于Transformer的单细胞诠释办法

图示:内部数据集的细胞范例诠释的机能。(滥觞:论文)

此外,针对粗略细胞范例辨认,SANGO 在 EpiAnno 选择的数据集上也表现出色,优于其他五种办法。总体来看,SANGO 在各类内部数据集上的稳健机能证明了其在单细胞范例诠释任务上的优越性。

跨平台与跨构造数据集上的单细胞范例诠释效果

面对来自不同测序平台(如10x Genomics、snATAC-seq、sciATAC-seq)的 19 对配对数据集,SANGO 取得了最高的平均准确率 77.6%,较次优办法高出约 10%。

平均准确率达96.4%,中山大学&重庆大学开发基于Transformer的单细胞诠释办法

平均准确率达96.4%,中山大学&重庆大学开发基于Transformer的单细胞诠释办法

图示:跨平台或构造数据集的机能。(滥觞:论文)

UMAP 可视化显示,SANGO 成功分离了原始数据中混杂的内皮细胞和小胶质细胞,而合作办法则未能将内皮细胞与星形胶质细胞有效区分。

此外,针对跨越七种构造(骨髓、肝脏等)的 22 对跨构造数据集,SANGO 以平均 86.3% 的准确率显著超越所有合作办法,展现了其在处理不同滥觞及构造背景下细胞范例辨认任务的强大通用性和准确性。

在使用不同参照数据源进行单细胞范例诠释时的机能

当以多源构造(如脑、肠)数据作为参照时,SANGO 在 7 组多参照与查问数据集上的平均准确率为 93.2%。通过分析相关基因(如 TCL1A、FCGR2B、TEX9)周边的峰值信号,SANGO 的标注得到了确认,显示了其在不同参照数据滥觞下的稳定性和可靠性。

平均准确率达96.4%,中山大学&重庆大学开发基于Transformer的单细胞诠释办法

图示:以多源数据或图集数据为参照的机能。(滥觞:论文)

在单细胞ATAC-seq数据细胞范例诠释中的优势及潜在应用

首先,SANGO 凭借对基因组序列信息的调整,有效克服了数据高维度与稀少性难题,显著提升了诠释准确性。其次,SANGO 对未知肿瘤细胞的辨认能力及对细胞范例特异性凋谢染色质峰的发现,为展现肿瘤微环境中的细胞异质性及探索潜在治疗靶点提供了新途径。

SANGO 作为一种高效、可扩展的细胞范例鉴定办法,通过调整 DNA 序列信息解决了 scATAC-seq 数据的复杂性,不仅在多种实验场景中展现卓越机能,还能展现未知肿瘤细胞并提供细胞范例特异性生物学信号,为 scATAC-seq 数据分析开辟了新路径。

论文链接:https://www.nature.com/articles/s43588-024-00622-7

给TA打赏
共{{data.count}}人
人已打赏
理论

让大模型不再「巨无霸」,这是一份最新的大模型参数高效微调综述

2024-4-28 14:48:00

理论

AI知道苹果是什么吗?DeepMind说话模型迷信家正把这些观念变得可量化、可测试

2024-4-30 17:03:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索