编辑 | 萝卜皮
单细胞和空间转录组测序是两种最近优化的转录组测序方法,越来越多地用于钻研癌症和相关疾病。
细胞诠释,特别是恶性细胞诠释,对于这些钻研中的深入分析至关重要。然而,当前的算法缺乏正确性和泛化性,使得难以一致、快速地从泛癌数据中推断出恶性细胞。
为了解决这个问题,厦门大学和上海交通大学的钻研团队提出了 Cancer-Finder,一种鉴于域泛化(Domain Generalization,DG)的深度学习算法,可以快速辨别单细胞数据中的恶性细胞,平均正确率达到 95.16%。重要的是,通过用空间转录组数据集调动单细胞训练数据,Cancer-Finder 可以正确辨别空间幻灯片上的恶性 spots。
该钻研以「Domain generalization enables general cancer cell annotation in single-cell and spatial transcriptomics」为题,于 2024 年 3 月 2 日发布在《Nature Communications》。
人们早已认识到肿瘤异质性是开发有效癌症治疗的重大障碍。单细胞 RNA 测序(scRNA-seq)技术能够在单细胞水平上全面了解肿瘤内和肿瘤间的异质性,从而促进个性化治疗的开发。
空间转录组学 (ST) 伴随着 scRNA-seq 的脚步,已经成为一种有前途的测序技术。它可以捕获完整组织内转录活动的空间背景,并越来越多地应用于癌症钻研,在癌症异质性钻研中产生了许多突破性的发现。在这些钻研中,对单细胞 spots(ST 中的测量单位)恶性状态的精确诠释至关重要且基础。
恶性细胞 spots 主要通过标记基因或拷贝数变异(CNV)事件来辨别。目前,迫切需要一种精度高、泛化功能好、易于扩张以处理多种数据类型的无参考恶性细胞诠释算法。
厦门大学和上海交通大学的钻研团队提出了 Cancer-Finder,一种鉴于域泛化的恶性细胞诠释策略,可以从具有不同分布的多个数据集中学习泛化模型。这允许在具有未定义分布(未知域)的单细胞数据内直接区分泛癌肿瘤微环境中的恶性细胞和正常细胞。
此外,通过调动训练集,该团队快速扩张 Cancer-Finder 来诠释 ST 数据中的恶性 spots,并在使用小训练集训练后证明了其高预测精度。
通过精确辨别 5 个 ccRCC ST 载玻片上的恶性 spots,该团队成功发现了由 10 个基因组成的基因特征;这些基因往往在肿瘤和正常组织之间的界面处富集,可能与侵袭性肿瘤微环境的形成有关,并可作为理想的预后指标。
图示:Cancer-Finder 概述及其应用。(来源:论文)
由于该方法的高功能和计算简单性,这里采用风险外推法。在风险外推中结合平均风险和方差风险,使 Cancer-Finder 能够在数据集、癌症类型和技术平台上实现良好的泛化功能。
与现有技术相比,Cancer-Finder 对多种癌症的 scRNA-seq 数据集的恶性诠释建立了更高的精度和稳定性,在金标准数据集中实现了 98.30% 的正确率,在银标准数据集中实现了 90.89% 的相似性。Cancer-Finder 更加正确,是因为深度学习模型比逻辑回归等传统模型更具适应性并且具有更大的拟合能力。
图示:Cancer-Finder的功能评估。(来源:论文)
此外,Cancer-Finder还有效利用了积累的癌组织数据和诠释信息(主要通过算法计算和手动诠释),从而增加了正确区分恶性和非恶性细胞的机会。虽然大多数现有算法都鉴于简单模型或单数据集分析,但前者容易受到模型限制,而后者容易受到重点数据集的质量及其包含的细胞类型的影响。
与其他方法不同(CopyKAT 必须推断 CNV 并根据 CNV 配置文件进行分类,SCEVAN 需要表征克隆结构,CaSee 必须找到训练的参考),Cancer-Finder 的推断过程只需要简单的前向传播线性计算。随着单细胞数据量的增加,相信使用更大量的数据进行再训练将为 Cancer-Finder 在癌症钻研中提供巨大的潜力。
图示:Cancer-Finder 在 ccRCC ST 数据集中肿瘤间异质性分析中的应用。(来源:论文)
通过调动训练数据集,钻研人员快速扩张 Cancer-Finder 来诠释 ST 数据中的恶性 spots,并在使用小训练集训练后证明了其超高的预测精度。
虽然训练集中只有少量相关 ST 数据,Cancer-Finder 在训练组织的 ST 数据上显示出很高的正确性 (82.00-97.37%)。
此外,预先训练的 Cancer-Finder 可以轻松扩张到由其他技术生成的具有相当序列分辨率的 ST 数据集,验证了 Cancer-Finder 强大的泛化能力。
除了扩张训练数据类型外,Cancer-Finder 还可以扩张为通过调动训练标签来诠释其他细胞状态(或细胞类型)。例如,将训练标签更改为免疫细胞,使得 Cancer-Finder 能够从单个细胞中正确辨别免疫细胞。
在外部测试中,Cancer-Finder 辨别肺、乳腺、卵巢和肝脏中免疫细胞的正确度在 85.21% 到 95.76% 之间。随着单细胞数据的积累,钻研人员将能够使用 Cancer-Finder 来诠释各种细胞状态,例如稀有细胞。
图示:与鉴于外部验证数据集和大型数据库应用的现有方法进行功能比较。(来源:论文)
尽管有这些优势,但目前的模式仍然有发展空间。Cancer-Finder 在大多数癌症上表现良好(正确度 > 0.8),但其在血液肿瘤中的表现有限,可能是由于血液肿瘤和实体瘤之间存在显著差异。因此,钻研人员不推荐 Cancer-Finder 用于血液肿瘤数据。
钻研人员表示,Cancer-Finder 忽略了 ST 数据中 spots 之间的空间关系,这是一个有可能提高其整体功效的因素。这些都值得进一步探索。
论文链接:https://www.nature.com/articles/s41467-024-46413-6