新SOTA,仅几个标记基因即可自动标记,复旦大学开发空间转录组学语义注释贝叶斯框架

编辑 | 萝卜皮空间转录组学的出现,彻底改变了组织内基因表达的研究。然而,注释空间点的生物特性仍然是一个挑战。为了解决这个问题,复旦大学的研究人员引入了 Pianno,一个基于标记基因自动进行结构语义注释的贝叶斯框架。Pianno 在精确注释各种空间语义(从不同的解剖结构到复杂的肿瘤微环境)以及估计细胞类型分布(跨各种空间转录组学平台生成的数据)方面的卓越能力。研究人员使用 Pianno 结合聚类方法,揭示了人类新皮质深层 3 中区域和物种特异性的兴奋性神经元亚型,展示了人类新皮质的细胞进化过程。Pianno 作为

图片

编辑 | 萝卜皮

空间转录组学的出现,彻底改变了组织内基因表达的研究。然而,注释空间点的生物特性仍然是一个挑战。

为了解决这个问题,复旦大学的研究人员引入了 Pianno,一个基于标记基因自动进行结构语义注释的贝叶斯框架。

Pianno 在精确注释各种空间语义(从不同的解剖结构到复杂的肿瘤微环境)以及估计细胞类型分布(跨各种空间转录组学平台生成的数据)方面的卓越能力。

研究人员使用 Pianno 结合聚类方法,揭示了人类新皮质深层 3 中区域和物种特异性的兴奋性神经元亚型,展示了人类新皮质的细胞进化过程。

Pianno 作为一种准确高效的工具,能够替代劳动密集型的手动注释程序,并在与无监督聚类方法结合时揭示新的生物学洞见。

该研究以「Pianno: a probabilistic framework automating semantic annotation for spatial transcriptomics」为题,于 2024 年 4 月 2 日发布在《Nature Communications》。

图片

空间转录组学技术如 10× Visium、Slide-seq 和 Stereo-seq 已经彻底改变了研究组织内基因表达模式,同时保留了空间信息。然而,仅仅获取组织内特定物理坐标的基因表达概况,还不足以完全理解生物系统的复杂性。

想要深入理解则需要识别每个空间点的生物学意义,即模式注释。这些模式可以代表大脑区域、肿瘤或正常组织以及细胞类型,类似于计算机视觉中的「语义分割」概念。为此,科学家引入了空间转录组学语义注释的概念,旨在将组织内的空间点分配给预定义结构或细胞类型的模式。

在生物学解释方面,虽然已经开发了许多基于机器学习的方法来识别空间单元(点)的聚类并使用标记基因解释它们的生物学意义,但这些方法通常缺乏将这些聚类与已知结构明确联系起来的能力。

在细胞类型层面,常用的工具依赖于去卷积方法来探索细胞类型的空间分布,但这些工具受到单细胞 RNA-seq 数据需求和批次效应潜在干扰的限制。虽然学界开发了基于标记基因的方法,来进行多重原位成像数据的细胞分割和空间转录组学中的细胞类型解卷积,但仍缺乏基于标记基因的空间语义注释工具。

为了解决现有方法的局限性,复旦大学的研究人员开发了 Pianno(Pattern image annotation),这是一种贝叶斯框架,可使用预定义的标记列表自动注释空间转录组学中点的生物学意义。Pianno 具有独特的功能,只需几个标记基因即可自动标记模式,包括解剖结构和细胞类型。该框架适用于各种空间转录组学技术生成的数据。

图片

图示:Pianno 框架工作流程。(来源:论文)

Pianno 框架工作流程

Pianno 采用概率框架基于一组标记基因对空间转录组学进行语义注释。Pianno 的输入包含空间转录组数据,例如空间坐标、原始基因计数和初始标记基因列表,该团队为每个模式提供了一个已知标记。

注释过程由两个连续步骤组成:初始分割步骤和细化步骤。

在初始步骤中,每个基因的空间表达都被转换为灰度图像。然后,对于每个目标模式,通过聚合与该模式相关的标记基因的灰度图像来创建模式图像。然后,考虑到初始注释结构中不同的表达模式,通过识别每个模式的其他候选标记基因来更新初始标记列表。这个标记列表被集成到后续的细化步骤中。

在细化阶段,建立贝叶斯分类器来估计属于不同模式的每个空间点的后验概率。然后根据后验概率更新注释。

Pianno 提供了两种更新注释的方法。对于语义标注中的连续模式,研究人员建议将概率分布作为模式图像并将其返回到模式检测器以进行更新的标注。对于分散或尖锐形状的图案,则建议直接根据概率值更新标注,因为它保留了详细信息。

总之,Pianno 不仅简化了注释过程,而且还采用启发式方法,使用初始单个标记基因来识别其他标记基因,从而最大限度地减少对作为输入的已知标记数量的要求。

Pianno 卓越的性能

在后续的评估中,与最先进的空间聚类方法相比,Pianno 表现出了卓越的性能,能够准确识别与手动标记相似的模式。此外,Pianno 在重建细胞类型的空间分布方面优于反卷积方法。应用 Pianno,研究人员发现了新皮质第 3 层和第 5 层神经丝基因的大脑区域和物种特异性空间表达模式。

图片

图示:Pianno 在皮质结构重建方面的表现评估。(来源:论文)

Pianno 性能的提升归功于其在模式检测模块中对标记基因的创新处理,为贝叶斯分类器提供了强有力的先验分布。该分类器将马尔可夫随机场(MRF)与空间泊松点过程(sPPP)无缝整合,利用 sPPP 模拟来自 RNA-seq 的计数数据,并考虑空间邻近点之间的协方差。在随后的 MRF 设计中,Pianno 分析了转录组和空间相似性,以及点之间的全局一致性,从而确保了标记的准确细化。

图片

图示:Pianno 语义注释揭示了新的区域和物种特异性细胞组织。(来源:论文)

虽然 Pianno 在空间语义注释方面展现出强大的能力,但其效果与明确的初始标记和组织分子知识密切相关,这可能限制了算法发现未知生物学模式的能力。

未来的研究应优先考虑整合额外信息维度,例如通过整合苏木精-伊红(H&E)或 4',6-二氨基-2-苯基吲哚(DAPI)图像获得的细胞大小和密度信息。这些增强措施可能减少 Pianno 对标记的依赖,从而提高其整体稳健性。

此外,将 Pianno 与标记识别流程整合是一个有前景的方向,这将为 Pianno 自动优化其标记选择提供机会,增强其在标记选择中的抗噪声能力,减少对先验知识的依赖。这些优化可以共同提高 Pianno 的稳健性和适用性。

论文链接:https://www.nature.com/articles/s41467-024-47152-4

相关资讯

优于人类专家,GPT-4 准确注释单细胞类型,成本低且稳健

编辑 | 萝卜皮GPT-4 是一种专为语音理解和生成而设计的大型语言模型。哥伦比亚大学梅尔曼公共卫生学院(Columbia University Mailman School of Public Health)的 Wenpin Hou 和杜克大学医学院(Duke University School of Medicine)的 Zhicheng Ji 证明,大语言模型 GPT-4 可以在单细胞 RNA 测序分析中使用标记基因信息准确注释细胞类型。「注释单个细胞的细胞类型的过程通常非常耗时,需要人类专家比较跨细胞簇的基

效率提高近百倍,山大团队AI新方法解析复杂器官空间组学,登Nature子刊

编辑 | 萝卜皮空间组学技术以细胞和亚细胞分辨率解析复杂器官的功能组件。山东大学的研究团队引入了空间图傅里叶变换  (Spatial Graph Fourier Transform,SpaGFT),并将图信号处理应用于各种空间组学分析平台,以生成可解释的表示。这种表示支持空间可变基因识别并改进基因表达推断,在分析人类和小鼠空间转录组数据方面优于现有工具,效率是现有工具的百倍。SpaGFT 可以识别人类淋巴结 Visium 数据中 B 细胞成熟的免疫区域,并使用内部人类扁桃体 CODEX 数据表征次级滤泡的变化。此外

谷歌请印度标注员给Reddit评论数据集打标签,错误率高达30%?

去年,谷歌发布了 GoEmotions 数据集,该数据集包含 58K 人工标注的 Reddit 评论,其中涉及 27 种情绪。