中科院图协作进修模型,从空间分辨转录组学数据中阐明肿瘤异质性

编辑 | 萝卜皮空间解析转录组学 (SRT) 技术使钻研职员可以或许获得对构造结构和细胞发育的新见解,尤其是在肿瘤中。然而,缺乏对生物背景和多视图特色的计算开发严重阻碍了构造异质性的阐明。在这里,中国科学院的钻研团队提出了 stMVC,这是一种多视图图协作进修模型,它在通过注意力分析 SRT 数据时集成了构造学、基因表白、空间位子和生物学背景。具体来说,采用半监督图注意力自动编码器的 stMVC 分别进修构造学相似性图或空间位子图的特定视图表示,然后在生物上下文的半监督下通过注意力同时整合两个视图图以获得鲁棒表示。st

编辑 | 萝卜皮

空间解析转录组学 (SRT) 技术使钻研职员可以或许获得对构造结构和细胞发育的新见解,尤其是在肿瘤中。然而,缺乏对生物背景和多视图特色的计算开发严重阻碍了构造异质性的阐明。

在这里,中国科学院的钻研团队提出了 stMVC,这是一种多视图图协作进修模型,它在通过注意力分析 SRT 数据时集成了构造学、基因表白、空间位子和生物学背景。

具体来说,采用半监督图注意力自动编码器的 stMVC 分别进修构造学相似性图或空间位子图的特定视图表示,然后在生物上下文的半监督下通过注意力同时整合两个视图图以获得鲁棒表示。stMVC 在检测构造结构、推断轨迹关系和对人类皮层的基准切片去噪方面优于其他工具。特别是,stMVC 可辨别乳腺癌钻研中与疾病相关的细胞状况及其过渡细胞状况,并通过独立临床数据的功能和生存分析进一步验证。这些结果证明了 SRT 数据的临床和预后应用。

该钻研以「Elucidating tumor heterogeneity from spatially resolved transcriptomics data by multi-view graph collaborative learning」为题,于 2022 年 10 月 10 日发布在《Nature Communications》。

中科院图协作进修模型,从空间分辨转录组学数据中阐明肿瘤异质性

SRT 平台最近的技术创新,包括鉴于测序的技术(例如,10X Genomics Visium 和 Stereo-seq)和鉴于成像的技术(例如,STARmap),允许在构造的空间环境中分析基因表白模式。这些产生的多种类型的概况:构造学、空间位子和基因表白,为细胞构造和发育生物学提供了新的见解,特别是对于肿瘤的进化。然而,用于生物学发现的 SRT 数据分析仍然拥有挑战性,因为它的吞吐量低、灵敏度低、稀疏且嘈杂。

最近,学界已经设计了几种计算方法来分析 SRT 数据。例如,Giotto 使用与单细胞 RNA-seq (scRNA-seq) 类似的处理策略,用于特色选择、降维和无监督聚类。BayesSpace 利用完全贝叶斯统计方法,通过空间邻域结构增强空间测量,进行聚类分析。SpaGCN 采用图卷积网络 (GCN) 方法集成基因表白、空间位子和构造学来辨别空间域和空间可变基因 (SVG)。stLearn 将构造学特色与空间位子相结合,对基因表白数据进行归一化,然后进行聚类。Squidpy 将组学和图像分析工具结合在一起,以实现对空间转录组学和蛋白质组学数据的可扩展描述。ClusterMap 结合了 RNA 的物理位子和基因身份,从鉴于图像的原位转录组学数据中辨别出拥有生物学意义的结构。DR-SC 和 SC-MEB 利用潜在隐马尔可夫随机场模型整合了基因表白和空间定位进行空间聚类。STAGATE 结合基因表白和空间信息,通过图注意力自动编码器框架检测空间域。

虽然这些方法有许多有趣的发现,但缺乏可以从构造学中有效和全局提取的视觉特色、有效的多视图信息融合以及构造内的全局位子信息等生物学背景,限制了它们在发育生物学中的解开能力。

另一方面,鉴于 GCN 的模型已成为进修 scRNA-seq 数据(即,通过 scGNN)和 SRT 数据(即,由 SpaGCN 提供)表示的强大工具,然而,这些方法通常钻研节点之间拥有单一类型接近度的网络,即单视图网络。尽管 SpaGCN 提出了一种 RGB 颜色空间平均策略,在计算任意两个点之间的相似度之前,将构造切片中的构造学数据转换为与 2D 空间相同的测量空间,然后再计算任意两个点之间的相似度,但该策略在一定程度上丢弃了构造切片中的纹理特色。每个点,即该策略在没有充分利用指定区域内灰度变化的空间分布即纹理特色的情况下,从颜色空间中提取颜色特色。

此外,在 SRT 钻研中,物理上最接近中心点的 \(K\)-最近点不一定与构造学上与该点最相似的点相同,并且多视图数据之间的距离评估指标也不相同,从而产生拥有多个视图的网络。此外,相邻点对确定中心点所属的细胞类型的贡献不相同,这与图注意力网络(GAT)的假设是一致的。更重要的是,分别视图中的信息质量可能分别,因此,最好是一个新颖的模型可以通过 GAT 进修每个视图的表示,同时协同集成多个网络,通过自动训练分别视图的权重来进修鲁棒的表示。

钻研职员推断:

(i)属于同一细胞类型但分布在分别区域并与构造中分别细胞类型相互作用的细胞,可能拥有分别的细胞状况;

(ii) 每个细胞所属的每个细胞类型(或细胞状况)的确定,与其大小、形状和排列(即松紧或松动)有关,因此构造学的纹理数据拥有丰富的信息来表征细胞类型或细胞状况;

(iii) 肿瘤样本免疫荧光染色抗体的颜色可以粗略地标记肿瘤在构造中的位子,产生区域分割,指示与肿瘤发展相关的生物学背景。

鉴于这些想法,钻研职员开发了 stMVC(Spatial Transcriptomics data analysis by Multiple View Collaborative-learning),这是一个整合四层信息的框架,通过鉴于注意力的多视图图协作进修来阐明构造异质性,即构造学、基因表白数据、空间位子(例如,肿瘤位子)和指示生物背景的区域分割。

中科院图协作进修模型,从空间分辨转录组学数据中阐明肿瘤异质性

图示:stMVC 模型概述。(来源:论文)

stMVC 的特点如下:

(i)对于每个点,全局进修有效的视觉特色,同时通过数据增强和对比进修从构造学中去除伪影;

(ii)通过鉴于注意力的协作进修策略训练多视图图的权重,包括通过视觉特色训练构造学相似性图 (HSG) 和通过物理坐标通过空间位子图 (SLG) 来进修每个点的稳健表示 ,在区域分割的半监督下;

(iii)对于人类卵巢子宫内膜腺癌 (OEAD) 和乳腺浸润性导管癌 (IDC) 样本,辨别竞争方法遗漏的癌症相关细胞状况(即干性、迁移和转移),以及过渡细胞状况 ,这得到其他独立钻研的临床数据的进一步验证,证明了 SRT 数据的潜在临床和预后应用;

(iv)小鼠初级视觉皮层样本,使钻研职员可以或许检测层特异性抑制神经元。

特别是,这种多视图图协作进修方法是一个灵活的框架,不仅可以或许整合来自多源或空间多组学数据的 SRT 数据,还可以或许整合空间表观基因组学或蛋白质组学数据。

中科院图协作进修模型,从空间分辨转录组学数据中阐明肿瘤异质性

图示:stMVC 可以或许检测空间域,可视化分别域之间的关系距离,并对 DLPFC 数据集上的数据进行去噪。(来源:论文)

stMVC 使用的构造结构中的这种肿瘤位子信息可以帮助钻研职员阐明肿瘤内的异质性。与之前通过用户定义的权重整合构造学和空间位子数据的方法分别,例如 SpaGCN 在基因表白平滑中手动调整构造学的权重,stMVC 采用鉴于注意力的策略来自动进修分别视图的权重以实现稳健的表示 。

此外,与 stLearn 使用的 ImageNet 预训练的 ResNet-50 模式相比,该团队通过数据增强和对比进修对构造学图像数据进行训练的ResNet-50模型的特色提取框架确实有助于 stMVC 进修更有效的视觉特色。对两个真实癌症数据集的评估证明了上述 stMVC 的优势,它可以或许检测与分布在分别空间域的细胞干性、迁移和转移相关的细胞状况,为肿瘤异质性提供生物学见解。

特别是,对于乳腺癌数据集,该团队通过辨别与癌症相关的细胞状况以及竞争方法遗漏的过渡细胞状况,证明了 SRT 数据的潜在临床和预后应用,临床数据进一步验证了这一点。

中科院图协作进修模型,从空间分辨转录组学数据中阐明肿瘤异质性

图示:stMVC 可以或许检测在卵巢癌和乳腺癌的分别空间域中分布的细胞状况。(来源:论文)

通过将 stMVC 与鉴于 SGATE 的三个单视图模型进行比较,钻研职员发现 stMVC 在聚类、轨迹推断和去噪方面拥有更好的性能,这主要归功于多视图图的协同进修。另外,钻研职员观察到鉴于 SGATE 的空间位子图模型比鉴于 SGATE 的构造学相似度图模型表现更好,然而,鉴于 SGATE 的构造学相似性图模型可以或许捕获一些丰富的边界信息,作为鉴于 SGATE 的空间位子图模型的补充。因此,钻研职员认为,与单视图图相比,通过多视图图对 SRT 数据建模的角度可以或许更好地理解构造异质性。

中科院图协作进修模型,从空间分辨转录组学数据中阐明肿瘤异质性

图示:stMVC 可以或许从乳腺癌样本中的浸润癌区域辨别肿瘤相关细胞状况及其过渡细胞状况。(来源:论文)

此外,通过与鉴于均值的策略 stMVC-M 进行比较,钻研职员注意到 stMVC 实现了更好且拥有可比性的性能。具体来说,(i)关于没有丰富纹理信息的构造学,例如 DLPFC 和卵巢癌样本,stMVC-M 更容易受到来自构造学视觉特色的噪声信号的影响,而 stMVC 更容易通过自动进修多个图中每个图的权重来捕获更精细的结构;(ii) 对于拥有丰富构造解剖结构的构造学,如乳腺癌样本,两种模型拥有相似的结果。因此,该团队还在 stMVC 模型中实现了鉴于均值的策略作为用户选择的选项。

到目前为止,开发用于整合来自多个样本的 SRT 数据的模型面临着几个挑战,例如来自多个来源的基因表白数据的批量效应,以及它们的稀疏性和噪声;构建来自分别物理度量空间的点之间的关联;并在创建多个样本之间的关系时去除构造学的伪影。然而,该团队认为(i)通过数据增强和对比进修的视觉特色提取模型为构建分别样本之间的点关联提供了解决方案;(ii) 多视图图协作进修模型可以通过结合多层轮廓数据提供一个新的视角来集成多个 SRT 数据集。

此外,stMVC 可以轻松扩展以处理空间分辨染色质可及性 (ATAC-seq) 或蛋白质组学数据,方法是将基因表白数据中的特色矩阵替换为 ATAC-seq 或蛋白质组学数据中的特色矩阵。另外,随着空间多组学技术的进步,stMVC 可以通过添加更多由分别组学数据创建的图或用多组学数据融合的特色矩阵替换单组学数据的特色矩阵来轻松调整以适应。

与 STAGATE 等单视图 GAT 模型类似,stMVC 可用于分析其他鉴于测序的技术(如 Slide-seq 和 Slide-seqV2)的 SRT 数据。除此之外,通过利用来自 stMVC 的时空信息,钻研职员可以计算空间(动态)网络生物标志物或代谢状况,以准确可靠地量化生物系统并进一步预测其复杂的行为。

中科院图协作进修模型,从空间分辨转录组学数据中阐明肿瘤异质性

图示:stMVC 可以或许辨别小鼠初级视觉皮层 (V1) 数据集中特定层的兴奋性和抑制性神经元。(来源:论文)

该团队通过从人类 DLPFC 数据集中对点进行二次采样,在模拟数据集上对 stMVC 的运行时间进行了基准测试。钻研职员观察到 stMVC 速度很快,并且需要 38 min 来处理拥有 20 K 个点的 SRT 数据集。特别是,运行时间与输入点的数量近似线性相关,这被认为是 stMVC 处理更大数据集的优势。钻研职员表示,在未来的工作中,他们将进一步提高 stMVC 的可扩展性,例如,通过引入子图采样训练策略。

在 stMVC 中仍然存在一些限制:(i)与 ImageNet 预训练的 ResNet-50 模型的视觉特色提取框架相比,训练 SimCLR 的预处理步骤需要更多的计算资源和时间;(ii) 根据抗体的染色密度手动标注肿瘤位子的区域分割。随着对可泛化分割工具的深度进修框架的探索,该团队将在未来的钻研中进一步钻研创建一个更高效的、拥有更自动化架构的 stMVC 模型。

论文链接:https://www.nature.com/articles/s41467-022-33619-9

给TA打赏
共{{data.count}}人
人已打赏
AI

AI自动化系统可以赶快找到新的电池化学成分,比人工尝试要快得多

2022-10-13 18:57:00

AI

网传张益唐宣称解决黎曼假想相干朗道-西格尔零点假想,论文11月将公布

2022-10-16 12:36:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索