数因智科袁野:CINS模型依据单细胞数据揭示细胞间互动的秘密

编辑 | X随着单细胞测序技术的发展,我们能够在单个细胞水平上观察基因表达,这就像是能够听到一个巨大合唱团中每个人的声音,但是如何理解这些细胞之间的交流和合作却是一个并不容易解决的问题。如在肿瘤生物学中,肿瘤细胞与其周围的微环境中的细胞(如免疫细胞、纤维细胞和血管细胞)之间存在复杂的相互作用,这些相互作用对于肿瘤的生长、转移和治疗反应都至关重要。如果我们能够研究清楚这些相互作用网络,就可能找到新的治疗方法,比如靶向微环境中的特定细胞或通讯通路的药物分子。数因智科创始人袁野博士发表于期刊PLoS Computatio

数因智科袁野:CINS模型依据单细胞数据揭示细胞间互动的秘密

编辑 | X

随着单细胞测序技术的发展,我们能够在单个细胞水平上观察基因表达,这就像是能够听到一个巨大合唱团中每个人的声音,但是如何理解这些细胞之间的交流和合作却是一个并不容易解决的问题。如在肿瘤生物学中,肿瘤细胞与其周围的微环境中的细胞(如免疫细胞、纤维细胞和血管细胞)之间存在复杂的相互作用,这些相互作用对于肿瘤的生长、转移和治疗反应都至关重要。如果我们能够研究清楚这些相互作用网络,就可能找到新的治疗方法,比如靶向微环境中的特定细胞或通讯通路的药物分子。

数因智科创始人袁野博士发表于期刊PLoS Computational Biology的CINS模型就是为了解决这个问题(PLoS Computational Biology是计算生物学领域顶级期刊,IF 4.779)。现有的研究主要集中在单细胞RNA-Seq (scRNA-Seq) 数据之间的差异,如细胞类型的比例或差异表达的基因。而对于由细胞相互作用的变化驱动的差异,没有空间信息很难推断。CINS结合了贝叶斯网络学习(用于推断细胞类型-细胞类型相互作用)和约束回归分析(用于推断这种相互作用中涉及的特定蛋白质),来识别差异性的细胞类型相互作用及其背后的蛋白质。这个模型就像是一个超级侦探,它可以从大量的数据中找出细胞之间的交流信息。它不仅可以发现哪些细胞在交流,还可以找出它们交流的内容,这对于我们理解疾病的发展和寻找新的治疗方法非常有帮助。

图片

CINS模型的构建流程如上图所示:

(A) 使用细胞类型注释来提取每个样本中的细胞类型比例,通过高斯混合模型(GMM)离散化。

(B) 对离散化的细胞丰度信息,基于贝叶斯网络(BN)和Bootstrapping算法识别细胞类型之间的高评分差异性交互。

(C) 对于在有向自助法BN分析中识别的配对,学习构建配体-目标回归LTR模型。在此模型中,我们使用出边细胞类型中配体的表达变化来预测入边细胞类型中目标基因的表达。

(D) 最后,使用LTR选择作为BN中识别的细胞-细胞交互基础的关键配体。

通过模拟分析,作者展示了在不同的噪声水平下,CINS如何能够准确地重建基础的贝叶斯网络。

为了进一步验证模型效果,CINS被应用于一个肺部疾病的scRNA-Seq数据集。这个数据集包含了28名健康(对照组)和32名特发性肺纤维化(IPF)患者的scRNA-Seq数据。

通过使用CINS,作者探索了IPF和对照样本之间的差异性细胞类型相互作用。结果显示,CINS成功地揭示了健康个体和特发性肺纤维化(IPF)患者之间的差异性细胞类型相互作用。

图片

此外,CINS模型还被应用于其他疾病和衰老的研究中,显示了其强大的潜力。与其他方法相比,它还可以处理更大的数据集,同时还具有更高的计算效率。通过CINS模型,我们不仅可以更深入地探索细胞间的互动,还可以为未来的医疗健康和疾病治疗提供更多的可能性。

关于数因智科

袁野,上海交大副教授,研究方向为人工智能、高通量基因组学信息处理、因果关系推断、复杂网络分析。

袁野博士创立的上海数因信科智能科技有限公司(简称“数因智科”),是一家高通量数据与 AI 算法驱动的创新药物研发公司,该公司于业内首次提出“AI+多重高通量技术”的下一代靶向RNA的药物研发范式。短时间、大规模的对潜在疾病靶点和先导分子、核酸序列进行高通量筛选,生成和构建了海量真实生物数据集,持续发现新的疾病潜在靶点和先导分子,目前已在上海、北京、深圳建立人工智能计算和制药研发中心。

相关资讯

多所知名高校合著综述论文、Nature新子刊创刊首发,这是你常听到的贝叶斯统计与建模

一篇关于贝叶斯统计与建模的综述文章,出现在了 Nature 新子刊 Nature Reviews Methods Primers 的第一期上。

贝叶斯数据分析2021课程开课了,同名书籍作者主讲

3 月,宜学习。

速度提升44%,节能153倍,清华使用内存计算硬件高效标记数据

编辑丨&对于现在的许多 AI 任务来说,标记数据是一个耗时、劳动密集型且昂贵的过程。 深度贝叶斯主动学习 (DBAL) 以指数级方式提高标记效率,从而大幅降低成本。 为了解决 DBAL 需要高带宽的数据传输和概率计算的问题,来自清华大学的团队提出一种忆阻器随机梯度 Langevin 动力学原位学习方法。