编辑 | 萝卜皮
空间转录组学的出现,彻底改变了构造内基因表白的研讨。然而,诠释空间点的生物特性仍然是一个挑战。
为了解决这个问题,复旦大学的研讨人员引入了 Pianno,一个鉴于标志基因自动进行布局语义诠释的贝叶斯框架。
Pianno 在精确诠释各种空间语义(从不同的解剖布局到复杂的肿瘤微环境)以及估计细胞典型分布(跨各种空间转录组学平台生成的数据)方面的卓越能力。
研讨人员使用 Pianno 结合聚类方式,揭示了人类新皮质深层 3 中区域和物种特异性的兴奋性神经元亚型,展示了人类新皮质的细胞进化过程。
Pianno 作为一种准确高效的工具,能够替代劳动密集型的手动诠释程序,并在与无监督聚类方式结合时揭示新的生物学洞见。
该研讨以「Pianno: a probabilistic framework automating semantic annotation for spatial transcriptomics」为题,于 2024 年 4 月 2 日发布在《Nature Communications》。
空间转录组学技术如 10× Visium、Slide-seq 和 Stereo-seq 已经彻底改变了研讨构造内基因表白形式,同时保留了空间信息。然而,仅仅获取构造内特定物理坐标的基因表白概况,还不足以完全理解生物系统的复杂性。
想要深入理解则需要鉴别每一个空间点的生物学意义,即形式诠释。这些形式可以代表大脑区域、肿瘤或正常构造以及细胞典型,类似于计算机视觉中的「语义分割」概念。为此,科学家引入了空间转录组学语义诠释的概念,旨在将构造内的空间点分配给预定义布局或细胞典型的形式。
在生物学解释方面,虽然已经开发了许多鉴于机器学习的方式来鉴别空间单元(点)的聚类并使用标志基因解释它们的生物学意义,但这些方式通常缺乏将这些聚类与已知布局明确联系起来的能力。
在细胞典型层面,常用的工具依赖于去卷积方式来探索细胞典型的空间分布,但这些工具受到单细胞 RNA-seq 数据需求和批次效应潜在干扰的限制。虽然学界开发了鉴于标志基因的方式,来进行多重原位成像数据的细胞分割和空间转录组学中的细胞典型解卷积,但仍缺乏鉴于标志基因的空间语义诠释工具。
为了解决现有方式的局限性,复旦大学的研讨人员开发了 Pianno(Pattern image annotation),这是一种贝叶斯框架,可使用预定义的标志列表自动诠释空间转录组学中点的生物学意义。Pianno 具有独特的功能,只需几个标志基因即可自动标志形式,包括解剖布局和细胞典型。该框架适用于各种空间转录组学技术生成的数据。
图示:Pianno 框架工作流程。(来源:论文)
Pianno 框架工作流程
Pianno 采用概率框架鉴于一组标志基因对空间转录组学进行语义诠释。Pianno 的输入包含空间转录组数据,例如空间坐标、原始基因计数和初始标志基因列表,该团队为每一个形式提供了一个已知标志。
诠释过程由两个连续方式组成:初始分割方式和细化方式。
在初始方式中,每一个基因的空间表白都被转换为灰度图象。然后,对于每一个目标形式,通过聚合与该形式相关的标志基因的灰度图象来创建形式图象。然后,考虑到初始诠释布局中不同的表白形式,通过鉴别每一个形式的其他候选标志基因来革新初始标志列表。这个标志列表被集成到后续的细化方式中。
在细化阶段,建立贝叶斯分类器来估计属于不同形式的每一个空间点的后验概率。然后根据后验概率革新诠释。
Pianno 提供了两种革新诠释的方式。对于语义标注中的连续形式,研讨人员建议将概率分布作为形式图象并将其返回到形式检测器以进行革新的标注。对于分散或尖锐形状的图案,则建议直接根据概率值革新标注,因为它保留了详细信息。
总之,Pianno 不仅简化了诠释过程,而且还采用启发式方式,使用初始单个标志基因来鉴别其他标志基因,从而最大限度地减少对作为输入的已知标志数量的要求。
Pianno 卓越的性能
在后续的评估中,与最先进的空间聚类方式相比,Pianno 表现出了卓越的性能,能够准确鉴别与手动标志相似的形式。此外,Pianno 在重建细胞典型的空间分布方面优于反卷积方式。应用 Pianno,研讨人员发现了新皮质第 3 层和第 5 层神经丝基因的大脑区域和物种特异性空间表白形式。
图示:Pianno 在皮质布局重建方面的表现评估。(来源:论文)
Pianno 性能的提升归功于其在形式检测模块中对标志基因的创新处理,为贝叶斯分类器提供了强有力的先验分布。该分类器将马尔可夫随机场(MRF)与空间泊松点过程(sPPP)无缝整合,利用 sPPP 模拟来自 RNA-seq 的计数数据,并考虑空间邻近点之间的协方差。在随后的 MRF 设计中,Pianno 分析了转录组和空间相似性,以及点之间的全局一致性,从而确保了标志的准确细化。
图示:Pianno 语义诠释揭示了新的区域和物种特异性细胞构造。(来源:论文)
虽然 Pianno 在空间语义诠释方面展现出强大的能力,但其效果与明确的初始标志和构造分子知识密切相关,这可能限制了算法发现未知生物学形式的能力。
未来的研讨应优先考虑整合额外信息维度,例如通过整合苏木精-伊红(H&E)或 4',6-二氨基-2-苯基吲哚(DAPI)图象获得的细胞大小和密度信息。这些增强措施可能减少 Pianno 对标志的依赖,从而提高其整体稳健性。
此外,将 Pianno 与标志鉴别流程整合是一个有前景的方向,这将为 Pianno 自动优化其标志选择提供机会,增强其在标志选择中的抗噪声能力,减少对先验知识的依赖。这些优化可以共同提高 Pianno 的稳健性和适用性。
论文链接:https://www.nature.com/articles/s41467-024-47152-4