剑桥团队革新RNA速率分析:AI算法突破基因动态追踪

编辑丨&RNA 速率模型利用剪接和未剪接的 RNA 计数中包含的时间信息来推断转录动力学,但现有的速率模型通常依赖于粗略的生物物理简化或数值近似来求解基础常微分方程(ODE)。 英国剑桥大学主导的团队提出了 cell2fate,它允许以完全贝叶斯方式求解生物物理学上更准确的模型。 通过将 RNA 速率解决方案分解为模块,cell2fate 在 RNA 速率和统计降维之间建立了生物物理联系。

图片

编辑丨&

RNA 速率模型利用剪接和未剪接的 RNA 计数中包含的时间信息来推断转录动力学,但现有的速率模型通常依赖于粗略的生物物理简化或数值近似来求解基础常微分方程(ODE)。

英国剑桥大学主导的团队提出了 cell2fate,它允许以完全贝叶斯方式求解生物物理学上更准确的模型。通过将 RNA 速率解决方案分解为模块,cell2fate 在 RNA 速率和统计降维之间建立了生物物理联系。

该研究以「Cell2fate infers RNA velocity modules to improve cell fate prediction」为题,于 2025 年 3 月 3 日刊登于《Nature Methods》。

图片

cell2fate

「RNA 速率」的概念涉及在单细胞 RNA 测序(scRNA-seq)中从剪接和未剪接计数推断转录动力学,现已展现出了其显著的发展潜力。

现有的改进必然需要在引入粗略的生物物理近似值之间进行权衡,或依赖于广泛的数值近似。cell2fate 针对这个问题,采用了线性化将描述复杂转录模式的微分方程分解为可通过分析求解的易处理组件。

通过这样做,模型同时具有表达力、可解释性和计算效率。使用生物物理解决方案将分析问题分解为分量的方法还提供了 RNA 速率和降维之间的联系。

图片

图 1: Cell2fate 模型概述。(图源:论文)

Cell2fate 建立在已建立的 RNA 速率概念之上,采用动力学模型来解释单个基因和细胞的剪接(s)和未剪接(u)读长计数的变化。

这里,αβγ 表示不同基因 g 的转录、剪接和降解速率。求解 u 和 s 的 ODE 并将方程拟合到观察到的计数,可以估计未知的速率参数,然后将其代入方程以获得每个单元中剪接计数的变化率,这反过来又产生了通常所说的「RNA 速率」。

除了在计算原因上具有吸引力外,线性化还提供了 RNA 速率和统计降维之间的生物物理联系。从机制上讲,模块可以解释为将所有活性调节蛋白诱导的转录速率变化近似为一小组独立效应。

速率模块解析

通过评估估计的细胞命运轨迹与先验知识的一致性,团队将该模型与现有的 RNA 速率方法进行了比较。他们考虑了跨越不同的模型类别和参数推断的 10 种 RNA 速率方法,应用于 5 个 scRNA-seq 数据集。

平均而言,在所有五个数据集中,cell2fate 都获得了最好的 CBDir 分数,并全部指出了所有数据集中细胞命运转换的正确方向。

图片

图 2:在 5 个数据集的 10 种方法的基准测试中,cell2fate 的性能得到增强。(图源:论文)

cell2fate 提供了足够的统计能力来从细微的转录动力学中识别正确的速率,正确重建了复杂的转录动力学。相比之下,其他方法由于其更简单的底层动力学模型,只能预测单个非零转录率。

随着该模型按时间顺序激活,RNA 速率分析模块可以比缺乏机制基础的常规降维技术提供更精细的细胞分化过程中动态过程的表征。

在小鼠大脑单细胞数据集中,cell2fate 揭示了 16 个不同的 RNA 速率分析模块,捕获所有预期的细胞轨迹。它的模块分解对 scRNA-seq 数据集具有很强的可解释性和统计能力,可以精细剖析细胞过程。

最后团队将此模型应用在新生成的人脑发育空间转录组学数据,将 cell2fate 捕获的时间信息与空间组织联系起来。

图片

图 3:cell2fate 与 cell2location 接口,在空间上映射人脑发育中的皮层神经发生过程。(图源:论文)

与 cell2fate 相比,其他 RNA 速率分析方法无法准确识别成熟神经元中的速率,cell2fate 的集成测量模型能考虑剪接和未剪接计数的不同检测概率,并在人脑 snRNA-seq 数据集中纠正批次效应。

小结

cell2fate 作为一款新推出的 RNA 速率分析的贝叶斯模型,能够在稀有和成熟细胞类型中发生复杂变化或弱信号的情况下推断转录动力学。其核心创新在于建立在线性化基础上的速率问题的公式以允许使用可分析处理的线性化组件求解生物物理上更准确的模型。

尽管 cell2fate 的生物物理准确性有所提高,但该模型仍然做出了简化的假设。cell2fate 中提出的概念是通用的,并产生了几个扩展,这些扩展可以在未来进一步提高模型的生物物理准确性,而无需求助于数值近似。

原文链接:https://www.nature.com/articles/s41592-025-02608-3

相关资讯

扩散模型+深度学习双剑合璧,生成式AI破解染色质构象

编辑丨&人体内的每一个细胞都包含相同的基因序列,但每个细胞只表达这些基因的一个方面。 这些细胞特异性基因表达模式确保脑细胞与皮肤细胞不同,部分由染色质的三维结构决定,遗传物质控制着每个基因的可及性。 高通量测序和成像技术的最新进展大大提高了如今研究单个细胞基因组组织的能力。

病毒接下来会做什么?AI 正在帮助科学家预测它们的演变

编辑丨toileter目前期望的防范病毒的措施是通过查看病毒的基因序列来预测病毒将如何进化。 距离那种方法还有很长的路要走,但越来越多的研究小组正在使用人工智能 (AI) 来预测 SARS-CoV-2、流感和其他病毒的进化。 病毒(尤其是 SARS-CoV-2 等 RNA 病毒)通过积累新的突变不断进化。

德国研究团队推出开源 GNN 模型 FIORA 提升质谱分析精准度,推动精准医疗发展

在精准医学与生物标志物发现的浪潮中,非靶向代谢组学扮演着至关重要的角色。 然而,由于现有谱图参比库的不完整,化合物的鉴定依然面临挑战。 为了解决这一问题,德国联邦材料研究与测试研究所(BAM)与柏林自由大学的研究团队联合开发了 FIORA,一种开源图神经网络(GNN),旨在模拟串联质谱的过程,帮助提高质谱识别的准确性。