重建170万个细胞发育轨迹,支持多模态,AI绘制细胞时空图谱,登Nature

编辑 | 萝卜皮单细胞基因组技术能够跨时间和空间维度对数百万个细胞进行多模态分析。 不过,实验限制阻碍了在天然时间动态和天然空间组织环境中对细胞进行全面测量。 最佳运输是解决这些限制的有力工具,并有助于恢复原始细胞环境。

图片

编辑 | 萝卜皮

单细胞基因组技术能够跨时间和空间维度对数百万个细胞进行多模态分析。

不过,实验限制阻碍了在天然时间动态和天然空间组织环境中对细胞进行全面测量。

最佳运输是解决这些限制的有力工具,并有助于恢复原始细胞环境。然而,大多数最优传输应用无法整合多模态信息或扩展到单细胞图谱。

在这里,来自慕尼黑工业大学(TUM)、慕尼黑亥姆霍兹大学、苏黎世联邦理工学院等组成的跨学科研究团队提出了多组学单细胞最优传输(Moscot,Multi-Omics Single-Cell Optimal Transport),这是一个可扩展的单细胞基因组学最优传输框架,支持所有应用中的多模态性。

研究表明 Moscot 能够有效重建 20 个时间点的 170 万个小鼠胚胎细胞的发育轨迹。

该研究以「Mapping cells through time and space with moscot」为题,于 2025 年 1 月 22 日发布在《Nature》。

图片

单细胞基因组技术增进了科学家对细胞分化和组织组织动态的理解。单细胞分析(如单细胞 RNA 测序 (scRNA-seq))可以高分辨率分析单个细胞的分子状态,而空间分析可以恢复其空间组织。然而,这些实验涉及细胞破坏,并且仅捕获一小部分分子信息。因此,必须重新调整细胞图谱。

先前的研究通过使用最优传输 (OT) 解决了这些问题,这是一个涉及映射和比较概率分布的领域。OT 在描述细胞重编程过程、通过使用单细胞参考增强空间数据重建组织结构以及通过对齐空间转录组数据构建生物系统的通用坐标框架 (CCF) 方面发挥了重要作用。

虽然基于 OT 的方法有潜力解决单细胞基因组学中的映射问题,但它们的使用面临三个关键挑战:首先,基于 OT 的工具的实现面向单峰数据。其次,当前在单细胞基因组学中使用的 OT 方法计算成本高昂。第三,现有工具建立在异构实现的基础上,这使得很难调整或组合新问题的方法。

「现有的方法只能提供少数细胞的快照,或者无法将空间和时间上的动态过程联系起来。」这项研究的主要作者之一、亥姆霍兹慕尼黑计算生物学研究所的博士候选人、慕尼黑工业大学(TUM)的研究员 Dominik Klein 解释说,「这极大地限制了我们对器官发育和疾病过程中复杂相互作用的理解。」

Dominik Klein 与 Giovanni Palla(慕尼黑亥姆霍兹大学)、Marius Lange(苏黎世联邦理工学院)、Michal Klein(苹果公司)和 Zoe Piran(耶路撒冷希伯来大学)领导的跨学科团队一起开发了 Moscot。该团队借鉴了 18 世纪发展起来的一项理论:最优传输理论,该理论描述了物体如何以最高效的方式从一个地方移动到另一个地方,以最大限度地减少时间、能源或成本。

Moscot 基于三个设计原则来克服当前的局限性。Moscot 支持多模态数据,提高了可扩展性,并统一了 OT 在时间和空间域中的先前单细胞应用。团队还引入了以前未描述的时空应用。直观的应用程序编程接口 (API) 与更广泛的 scverse 生态系统交互,使这些功能变得可用。

图片

图示:Moscot 可在单细胞应用中实现高效的多模态 OT。(来源:论文)

Moscot

具体而言,Moscot 将生物映射和比对任务转化为 OT 问题,并使用一组一致的算法来解决这些问题。Moscot 将不成对的数据集作为输入,同时接受生物学知识(例如细胞生长率)来指导映射过程。

它解决了 OT 问题并生成了耦合矩阵,该矩阵以概率方式关联每个数据集中的样本。有了该耦合矩阵,Moscot 提供了各种特定于应用的下游分析功能。

Moscot 以三种 OT 概念为基础,以解决各种生物学问题。这些概念在样本跨细胞分布的关联方式上有所不同:

Wasserstein 型 (W 型) OT 比较两组具有相同细胞特征的细胞;

Gromov–Wasserstein 型 (GW 型) OT 比较生活在不同空间的细胞分布;

融合 Gromov–Wasserstein 型 (FGW 型) OT 比较具有部分共同特征的细胞。

为了在整个框架中支持多模态性,研究人员使用了共享潜在表示。与之前基于 OT 的工具相比,该团队将 W 型、GW 型和 FGW 型概念的计算时间和内存消耗减少了几个数量级,从而使 Moscot 适用于图集规模的数据集。

验证与应用

团队通过研究小鼠胚胎发育过程中 170 万个细胞的生长情况来展示 Moscot 的功能。

图片

图示:Moscot 绘制了图集尺度的胚胎细胞生长轨迹。(来源:论文)

此外,研究人员将通过测序 (CITE-seq) 对转录组和表位进行多模态细胞索引的信息映射到小鼠肝脏的高分辨率空间读数,并将小鼠脑样本的大空间转录组切片对齐。

研究人员联合分析了小鼠胰腺发育过程中的基因表达和染色质可及性,并应用 Moscot 更好地描绘 delta 细胞和 epsilon 细胞的细胞轨迹。

该研究证实,NEUROD2 是人类诱导多能干细胞胰岛细胞分化模型中 epsilon 祖细胞的调节剂。

Moscot 的应用为胰腺研究提供了新的见解:该团队成功地基于多模态测量绘制了胰腺中激素产生细胞的发育图。基于这些发现,科学家现在可以详细分析糖尿病的潜在机制。

在 SPATEO 的同时,团队引入了时空映射的概念,并使用小鼠胚胎发生的时空图谱展示了其优势。

「这种对细胞过程的新视角为针对性治疗开辟了机会,这种治疗可以解决疾病的根本原因,而不仅仅是治疗症状。」亥姆霍兹慕尼黑糖尿病和再生研究所所长 Heiko Lickert 教授说。

图片

图示:使用 Moscot 推断时空动态。(来源:论文)

结语

总之,研究人员基于 OTT 开发了 Moscot,它是 OT 算法的可扩展 JAX 实现,支持即时编译、成本函数的动态评估和 GPU 加速。

当适应数据集的大小时,研究人员将耦合矩阵限制为低秩,这使得 W 型、GW 型和 FGW 型概念具有线性时间和内存复杂度。

统一的 API 使得 Moscot 易于使用和扩展。特别是,模块化实现使得可以使用类似的基础设施来解决不同的生物学问题。目前,Moscot 可作为开源软件使用。

Moscot:https://moscot-tools.org

论文链接:https://www.nature.com/articles/s41586-024-08453-2

相关报道:https://phys.org/news/2025-01-ai-cell-technology-reveals-dynamics.html

相关资讯

跨越时空的细胞地图:Moscot框架助力单细胞基因组学的新革命

近日,来自慕尼黑工业大学、慕尼黑亥姆霍兹大学和苏黎世联邦理工学院的跨学科研究团队发布了一项重要研究,提出了名为 Moscot(多组学单细胞最优传输)的创新框架,成功重建了170万个小鼠胚胎细胞在20个时间点的发育轨迹。 这项研究在《Nature》杂志上发表,标志着单细胞基因组学领域的一个重大突破。 Moscot 框架的设计灵感源自18世纪的最优传输理论,该理论旨在高效地将物体从一个地方移动到另一个地方。

1.8B参数,阿里云首个联合DNA、RNA、蛋白质的生物大模型,涵盖16.9W物种

编辑 | 萝卜皮不久之前,Google DeepMind 发布了 AlphaFold3,再次引发了人们对「AI 生命科学」的讨论。在学界,科学家的目标往往是先认识世界,然后在认识的基础上改造世界。但是在生命科学领域,人类对整个生命的理解与认识还如九牛一毛、冰山一角;建立对生命系统的多维度深刻认识是当前人类研究的重要一步,AI 是达成这一步的重要工具。近期,阿里云飞天实验室发布并开源了业界首个联合 DNA、RNA、蛋白质的生物大模型「LucaOne」。这是一种新型预训练基础模型,旨在综合学习遗传和蛋白质组语言,涵

精度媲美AlphaFold,EPFL的AI方法从序列中匹配蛋白质互作

编辑 | 枯叶蝶蛋白质是生命的基石,参与几乎所有的生物过程。了解蛋白质如何相互作用对于解释细胞功能的复杂性至关重要,对药物开发和疾病治疗也具有重要意义。洛桑联邦理工学院(École Polytechnique Fédérale de Lausanne,EPFL)的 Anne-Florence Bitbol 团队提出了一种配对相互作用的蛋白质序列的方法,该方法利用了在多个序列比对上训练的蛋白质语言模型的强大功能;它对于小型数据集表现良好,它可以通过监督方法改进蛋白质复合物的结构预测。该研究以「Pairing inte