Nature子刊,北大陈语谦团队提出多模态单细胞数据整合和插补的深度学习方法

编辑 | ScienceAI今天为大家介绍的是来自北京大学信息工程学院、化学生物学与生物技术学院省部共建肿瘤化学基因组学国家重点实验室、鹏城国家实验室合聘研究员和 AI4S 平台中心主任陈语谦教授团队发表在《Nature Communications》的论文。该团队开发了一种新型的多模态整合方法,能够实现多模态单细胞数据的整合与插补,这一成果可以促进多模态单细胞数据的分析。文章链接:。

Nature子刊,北大陈语谦团队提出多模态单细胞数据整合和插补的深度学习方法

编辑 | ScienceAI

今天为大家介绍的是来自北京大学信息工程学院、化学生物学与生物技术学院省部共建肿瘤化学基因组学国家重点实验室、鹏城国家实验室合聘研究员和 AI4S 平台中心主任陈语谦教授团队发表在《Nature Communications》的论文。

该团队开发了一种新型的多模态整合方法,能够实现多模态单细胞数据的整合与插补,这一成果可以促进多模态单细胞数据的分析。

Nature子刊,北大陈语谦团队提出多模态单细胞数据整合和插补的深度学习方法

文章链接:https://www.nature.com/articles/s41467-024-53355-6

背景介绍

异构特征空间和技术噪声阻碍了细胞数据的整合和插补。跨模态获取配对数据的高成本进一步限制了分析。因此,迫切需要深度学习方法来有效地整合和插补不配对的多模态单细胞数据。

在此,作者设计了模态联结自编码器 Monae。Monae 联结模态之间的关系,并在特定模态中采用对比学习,增强联合空间中的细胞表示。Monae 的整合部分提供模态互补的细胞表示,插补部分利用细胞表示生成具有生物异质性的模态内和跨模态计数。

此外,额外设计的 Monae-E 是 Monae 的一种变体,支持更快收敛并提供可解释性。在各种数据集上的评估验证了 Monae 在多模态单细胞数据整合和插补中的准确性。

模型架构

Monae 是一个由自编码器构建的多模态单细胞数据学习框架,如图 1 所示。Monae 基于不同模态之间的调控关系构建一个模态联结图。图中的节点对应于特定模态中的单个独立特征。Monae 中的图自编码器学习每个节点的表示,如图 1a 所示。

在 Monae 中,不同的自编码器编码各个模态,其中的非对称网络生成对比学习中的正样本和负样本,如图 1b 所示。自适应聚类用于增强 Monae 对比学习的细胞表示,增加异质簇之间的判别性,如图 1c 所示。

从 Monae 获得图联结节点嵌入和对比学习的细胞嵌入后,后者用作多模态整合的细胞表示(如图 1d 所示)。

对于插补,Monae 将来自联合空间的细胞表示与模态联结节点特征融合以推理插补计数。对于变体 Monae-E,可以将多模态细胞作为节点添加到图 1a 中的图联结中。

Monae-E 从图自编码器获得所有节点的嵌入,包括细胞嵌入和特征嵌入,再使用细胞嵌入来替换 Monae 中非对称网络的计数输入,后续过程与 Monae 一致,如图 1e 所示。

Nature子刊,北大陈语谦团队提出多模态单细胞数据整合和插补的深度学习方法

图 1:模型架构和工作流程

多模态单细胞数据整合

作者在多个数据集上评估 Monae 和基线方法,这些数据集包括配对和不配对场景。

与基线方法相比,Monae 和 Monae-E 在两个整合指标批次去除和生物异质性上表现更好,并且对不同的随机数据划分具有鲁棒性,如图 2b 所示。

为了评估数据集规模的影响,作者首先随机采样并获得不同规模的数据集子集。所有方法在子集上进行了比较,如图 2c 和 d 所示。

Monae 和 Monae-E 可以取得更好的性能。随着子集规模的增加,所有方法的表现都会得到提高。图 2e 中展示了其他数据集上的结果比较,评估标准为批次去除和生物异质性的整体得分。

Nature子刊,北大陈语谦团队提出多模态单细胞数据整合和插补的深度学习方法

图 2:多模态整合基准

多模态单细胞数据的插补

RNA 模态插补对应于模态内插补。作者使用 MultiVI 以及专用于模态内插补的方法:MAGIC 和 DCA 作为基线方法,在 Muto-2021 上评估基线方法和Monae。

在图 3a 中,使用 PCA 降维插补计数,并用 UMAP 可视化,Monae 和 Monae-E 插补后的细胞簇彼此分离得更开,具有更好的判别性。评估结果如图 3b 所示,Monae 和 Monae-E 的整体性能优于基线方法。

对于跨模态插补,作者使用 scButterfly、MultiVI、JAMIE、UnitedNet 和 BABEL 作为基线。将 Muto-2021 上的 RNA 模态数据转换为 ATAC 模态。

跨模态插补的评估结果如图 3c 所示。这些结果体现出 Monae 恢复了 ATAC 模态下的生物异质性。

总体而言,Monae 和 Monae-E 翻译的图谱能够表征细胞簇之间的差异,从而促进细胞类型识别等下游任务。

同样的方式,作者评估了从 ATAC 模态翻译到 RNA 模态的插补结果。Muto-2021 上的跨模态插补的评估结果如图 3d 所示。虽然 scButterfly 表现更好,但值得注意的是,Monae 和 Monae-E 的性能接近 scButterfly。

Nature子刊,北大陈语谦团队提出多模态单细胞数据整合和插补的深度学习方法

图 3:多模态插补基准

结论

在本研究中,作者介绍了 Monae,一种用于多模态单细胞数据整合和插补的深度学习方法。

Monae 的设计遵循两个动机:(1)对于整合,学习模态之间的联结关系可以促进联合空间中的对比学习并消除模态之间的差距。(2)对于插补,当前模态中缺失的信息可以通过其他模态来补充。

因此,Monae 利用整合细胞表示来生成插补计数。作者进行了基准实验,体现了Monae 在一系列数据集和场景中的表现,包括多模态整合、模态内和跨模态插补。

总体而言,Monae可以作为复杂多模态单细胞数据的综合分析的工具,其有助于了解生物系统内的细胞身份和功能状态。

代码:https://github.com/shapsider/monae

相关资讯

智源线虫登上Nature子刊封面,具身元年尾声深长

智源研究院提出了BAAIWorm天宝--一个全新的、基于数据驱动的生物智能模拟系统,首次实现秀丽线虫神经系统、身体与环境的闭环仿真。 BAAIWorm天宝通过构建线虫的精细神经系统、身体和环境模型,为探索大脑与行为之间的神经机制提供重要研究平台。 2024年12月16日,智源研究院理事长黄铁军和生命模拟研究中心马雷等共同关于BAAIWorm天宝的重要进展在国际著名科学期刊《自然·计算科学》(Nature Computational Science)上发表,并于12月21日被选为期刊封面故事。

量化617,462种人类微蛋白必需性,北大LLM蛋白质综合预测与分析,登Nature子刊

编辑 | 萝卜皮人类必需蛋白(HEP)对于个体的生存和发育必不可少。 然而,鉴定 HEP 的实验方法通常成本高昂、耗时费力。 此外,现有的计算方法仅在细胞系水平上预测 HEP,但 HEP 在活体人类、细胞系和动物模型中有所不同。

清华&第四范式&腾讯研究团队:图神经网络与生物医学网络实现新兴药物相互作用预测

编辑 | 萝卜皮新兴药物的药物相互作用 (DDI) 为治疗和缓解疾病提供了可能性,利用计算方法准确预测这些相互作用可以改善患者护理并有助于高效的药物开发。然而,许多现有的计算方法需要大量已知的 DDI 信息,这对于新兴药物来说是稀缺的。清华大学、第四范式(4Paradigm)以及腾讯 Jarvis Lab 的研究人员提出了 EmerGNN,这是一种图神经网络,可以利用生物医学网络中的丰富信息来有效预测新兴药物的相互作用。EmerGNN 通过提取药物对之间的路径、将信息从一种药物传播到另一种药物以及在路径上结合相关的