可多模态数据集成、插补和跨模态生成，中科院&树兰医院&北师大团队开发带有掩码模块的深度生成框架

编辑 | 红菜苔随着单细胞技术的发展，许多细胞特性可以被测量。此外，多组学分析技术可以同时联合测量单个细胞中的两个或多个特征。为了快速处理积累的各种数据，需要多模态数据集成的计算方法。树兰医院、中国科学院和北京师范大学的合作团队提出了 inClust ，一个用于多组学分析的深度生成框架。它建立在之前针对转录组数据所开发的 inClust 的基础上，并增加了两个专为多模式数据处理设计的掩码模块：编码器前面的输入掩码模块和解码器后面的输入掩码模块。InClust 可用于调整来自相似细胞群的 scRNA-seq 和 M

编辑 | 红菜苔

随着单细胞技术的发展，许多细胞特性可以被测量。此外，多组学分析技术可以同时联合测量单个细胞中的两个或多个特征。为了快速处理积累的各种数据，需要多模态数据集成的计算方法。

树兰医院、中国科学院和北京师范大学的合作团队提出了 inClust+，一个用于多组学分析的深度生成框架。它建立在之前针对转录组数据所开发的 inClust 的基础上，并增加了两个专为多模式数据处理设计的掩码模块：编码器前面的输入掩码模块和解码器后面的输入掩码模块。

InClust+ 可用于调整来自相似细胞群的 scRNA-seq 和 MERFISH 数据，并根据 scRNA-seq 数据估算 MERFISH 数据。InClust+ 具有将多模态数据（例如具有基因表达、染色质可及性和蛋白质丰度的三模态数据）与批次效应调整的能力。

研究人员使用 inClust+ 调整一个未标记的单模态 scRNA-seq 数据集和两个标记的多模态 CITE-seq 数据集，将标签从 CITE-seq 数据集转化到 scRNA-seq 数据集，并生成单模态 scRNA-seq 数据中缺失的蛋白质丰度模态。

该研究以「InClust+: the deep generative framework with mask modules for multimodal data integration, imputation, and cross-modal generation」为题，于 2024 年 1 月 24 日发布在《BMC Bioinformatics》。

可多模态数据集成、插补和跨模态生成，中科院&树兰医院&北师大团队开发带有掩码模块的深度生成框架

近年来，单细胞技术的进步使得在单个细胞中获得多种性状成为可能，例如单细胞 RNA 测序 (scRNA-seq)、转座酶可及染色质测序的单细胞测定 (scATAC-seq) 和单细胞亚硫酸氢盐测序 (scBS-seq)。

这些单细胞方法极大地促进了科学家对细胞的理解。从而揭示细胞群的异质性，推断细胞发育轨迹，并重建基因调控网络。但以一种方式收集的数据仅代表细胞状态的有限侧面。为了获得更全面、更全面的信息，需要将来自不同模态的数据调整在一起，从而更好地揭示数据的生物学意义。

为了实现这些任务，树兰医院、中国科学院和北京师范大学的合作团队在之前的研究中，曾提出了 inClust（集成聚类），一种灵活的转录组数据深度生成框架。在这里，该团队通过添加两个新模块来扩展 inClust，即编码器前面的输入掩码模块和解码器后面的输入掩码模块。

可多模态数据集成、插补和跨模态生成，中科院&树兰医院&北师大团队开发带有掩码模块的深度生成框架

图示：inClust+的架构及其应用。（来源：论文）

该团队将增强的 inClust 命名为 inClust+，并证明它不仅可以实现数据集成，还可以利用掩模模块的便宜实现基因插补。

研究人员将 inClust+ 应用于各种数据集，包括多个单模态（未配对）数据集、一个或多个多模态数据集以及包含多模态数据和单模态数据的数据集。在这些例子中，inClust+展示了其数据集成、插补和数据生成的能力。

首先，通过 mask 模块的便宜，参考类似细胞群的 scRNA-seq 数据，使用 inClust+ 对 MERFISH 数据进行插补。

然后，通过三个示例评估了具有堆叠式编码器-解码器架构和掩模模块的 inClust+ 的多模态集成能力。结果表明，inClust+ 不仅可以混合模态之间的数据，还可以分离生物学差异并消除批次效应。

最后，研究人员使用 inClust+ 将数据与单模态数据集和多模态数据集进行集成。结果表明，inClust+ 可以将标签从多模态数据转化到单模态数据，并补全单模态数据中缺失的模态。

可多模态数据集成、插补和跨模态生成，中科院&树兰医院&北师大团队开发带有掩码模块的深度生成框架

图示：inClust+ 调整多模态（三重）数据集的图表。（来源：论文）

InClust+ 的应用并不限于上述情况。对于基因插补，会出现一种情况，即所有数据集都有自己的一定基因，而不是只有一个数据集有自己独特的基因。通过调整输入掩码，inClust+ 可以基于同享基因调整两个数据集，并通过引用相应数据集中的一定基因来估算两个数据集中的其余基因。对于缺失模态生成，会出现所有数据集都有自己一定模态的情况，inClust+ 可以基于同享模态调整两个数据集，并通过引用相应数据集中的一定模态来生成每个数据集中的缺失模态。

由于inClust+ 是 inClust 在多模态应用中的扩展，因此与其他集成方法相比，inClust+ 和 inClust 可以作为一个整体放在一起。该团队的模型（inClust 和 inClust +）与其他集成方法的区别在于其适应不同情况的灵活性以及尽可能集成信息的能力。

灵活性体现在以下两点：首先，InClust 可以灵活地处理标签信息；InClust+也继承了这一便宜，并体现在 inClust+ 可以半监督模式将标签从参考数据集转化到查询数据集。其次，inClust+ 中的两个 mask 模块可以灵活调整以处理不同的输入。

模型尽可能调整信息的能力体现在以下两点：首先，在inClust中证明该模型不仅可以使用表达数据，还可以使用协变信息（例如批次）和标签信息；这一便宜也被 inClust+ 继承了。其次，如 inClust+ 所示，该模型不仅可以利用同享数据（同享基因表达或同享模态）进行调整，还可以利用一定基因或模态来进行缺失基因插补或缺失模态生成。

简而言之，该团队的模型不仅可以集成数据，还可以在数据集成的基础上实现其他下游任务（例如分布外生成、标签转化和新型识别、空间域分割、跨模态插补和生成）。

添加掩模是增强深度学习模型的常见方法。在 inClust+ 中，研究人员通过一对掩码模块（输入掩码模块和输入掩码模块）来增强模型。掩模的灵活设计和使用使模型能够实现一系列任务，这些任务通常需要多个模型分别实现。例如，inClust+ 可以利用常见的和数据集一定的基因进行调整和插补，如 uniPort。掩码使事情变得简单：输入掩码筛选出常见基因，输入掩码筛选出相应数据的常见基因和数据集一定基因。

同时，inClust+ 可以集成多模态数据集来实现多域翻译，作为跨模态自动编码器。输入掩码和输入掩码使inClust+ 成为多个独立且相关的编码器-解码器组合。因此，inClust+ 不仅可以对同一模态的数据进行压缩和重构，还可以将一种模态的数据压缩并重构为另一种模态，从而实现跨模态翻译。

此外，inClust+ 可以集成多模态数据集和单模态数据集，将标签从多模态数据转化到单模态数据，并通过数据生成将单模态数据完整地转换为多模态数据，如 sciPENN。InClust+ 指的是多模态数据集，用于生成单模态数据集中缺失模态的数据。一般来说，作为一种模型增强技术，在模型中添加一对掩模不仅限于 inClust，还可以扩展到具有类似编码器-解码器结构的深度学习模型，例如 scArches。

论文链接：https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-024-05656-2

{{userData.name}}已认证

可多模态数据集成、插补和跨模态生成，中科院&树兰医院&北师大团队开发带有掩码模块的深度生成框架

王长虎：PixVerse 实测成效已超过 Pika，抖音经历让我们有足够优势

第一波！2024年2月精选实用计划东西合集

刚刚，AI颠覆物理模拟：一句话精准仿真，学术圈半壁江山联手耗时24个月研究成果

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

2024年AI 编程现在可以做到什么程度？

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！

抢跑OpenAI！谷歌Gemini 2.0震撼登场：全面转向Agent，多模态输入输出，免费随便玩