AI在线 AI在线

扩散模型+深度学习双剑合璧,生成式AI破解染色质构象

作者:ScienceAI
2025-03-10 12:57
编辑丨&人体内的每一个细胞都包含相同的基因序列,但每个细胞只表达这些基因的一个方面。 这些细胞特异性基因表达模式确保脑细胞与皮肤细胞不同,部分由染色质的三维结构决定,遗传物质控制着每个基因的可及性。 高通量测序和成像技术的最新进展大大提高了如今研究单个细胞基因组组织的能力。

图片

编辑丨&

人体内的每一个细胞都包含相同的基因序列,但每个细胞只表达这些基因的一个方面。这些细胞特异性基因表达模式确保脑细胞与皮肤细胞不同,部分由染色质的三维结构决定,遗传物质控制着每个基因的可及性。

高通量测序和成像技术的最新进展大大提高了如今研究单个细胞基因组组织的能力。然而,现有方法通常费力且耗时,阻碍了对不同细胞环境中染色质构象变异性的全面分析。

麻省理工学院的化学家们现在想出了一种使用生成式人工智能来确定这些 3D 基因组结构的新方法。他们的技术可以在几分钟内预测数千个结构,这比现有的结构分析实验方法要快得多。

他们的研究以「ChromoGen: Diffusion model predicts single-cell chromatin conformations」为题,于 2025 年 1 月 31 日发布在《Science Advances》。

图片

「我们的目标是尝试从潜在的 DNA 序列中预测三维基因组结构,」化学副教授、该研究的资深作者 Bin Zhang 说。「现在我们可以做到这些,这使得它可以与尖端的实验技术相提并论,并开辟很多有趣的机会。」

ChromoGen

了解基因组的三维 (3D) 组织对于揭示其功能复杂性和在基因调控中的作用至关重要。多年来,分子生物学技术的进步为基因组构象提供了宝贵的见解。这些见解揭示了染色质结构如何促进基因周围空间环境的建立,有助于在适当的时间募集适当的分子来协调转录。

最近,深度学习技术为直接从测序数据预测单细胞染色质构象提供了有潜力的研究方向。与序列特征和群体平均值之间相对简单的映射不同,序列特征映射到单个 3D 结构本质上是随机的。因此,预测单个染色质结构需要一个固有的随机模型来理解和再现这种异质性。

为了在捕获其异质性的同时预测单细胞染色质结构,团队引入了 ChromoGen,它是一种扩散模型,已被证明在文本到图像应用以及预测配体和蛋白质分子的 3D 坐标方面具有很强的能力。

图片

图 1:ChromoGen 在使用序列数据对染色质组织进行从头预测时遵循的程序图示。(图源:论文)

微调的 EPCOT 模型将 DNA 序列和脱氧核糖核酸酶序列(DNase-seq)数据转换为信息丰富的低维数字嵌入。接下来,由微调模型创建的嵌入使用无分类器指导的去噪扩散概率模型(DDPM)对采样的分布进行条件处理。

此外,距离图自然不受 3D 构象的旋转和平移的影响,许多神经网络架构都难以理解,并且距离图可以按照材料和方法中概述的过程轻松转换为笛卡尔坐标。

为了研究通用区域非特异性系综的特性,团队通过组合来自更广泛数据集中每个区域的 200 个生成的结构来近似一个通用集成,并计算了由各种序列长度分隔的基因座之间空间距离的概率分布。

图片

图 2:ChromoGen 可准确捕获在单细胞染色质结构中观察到的构象分布。(图源:论文)

与先前对单个接触对的分析相比,这种方法允许对染色质构象进行更全面的比较。使用生成的构象支持 ChromoGen 产生高度复杂结构的能力,这些结构涵盖广泛的构象和结构基序。

更多更准确的应用测试

验证了生成的构象的通用物理特性后,他们接下来研究了 ChromoGen 捕获具有生物学意义的结构特征的能力。在所有情况下,生成的中位距离图捕获了群体中可见的关键结构特征。同样,生成的单个结构与它们从 Dip-C 衍生的对应结构非常相似。

为了定量评估生成结构和实验结构之间的一致性,团队对预测数据集所包含的整个基因组区域进行了多次分析。结果显示使用生成的和 Dip-C 构象计算的中位距离图始终具有强相关性。

而在跨细胞类型的预测上,以前的模型已经成功地使用染色质可及性数据来预测不同细胞类型之间群体平均染色质组织模式的差异。所以预计提供给 ChromoGen 的数据应该允许它预测具有细胞类型特异性的构象集合。

图片

图 3:ChromoGen 产生准确的、细胞类型特异性的染色质构象。(图源:论文)

尽管显微镜成像显示,去除黏连蛋白的细胞在群体中位距离图中并未出现,但它们的确存在。正如成像和理论研究所表明的那样,它们还与染色质组织到单个细胞内包装结构域的新兴模型一致。

功能总结

ChromoGen,一种有效生成区域和细胞类型特异性染色质构象的智能框架。ChromoGen 产生的构象再现了群体 Hi-C 实验中揭示的各种结构特征以及在单细胞数据集中观察到的异质性。

经过训练后,该模型可以在比 Hi-C 或其他实验技术更快的时间尺度上生成预测。其可以在 20 分钟内在一个 GPU 上生成特定区域的一千个结构。

研究人员还发现,该模型可以准确预测来自其训练所针对的细胞类型以外的细胞类型的数据。这表明它可能有助于分析不同细胞类型的染色质结构如何不同,以及这些差异如何影响它们的功能。该模型还可用于探索单个细胞中可能存在的不同染色质状态,以及这些变化如何影响基因表达。

研究员表示,他希望他们可以通过这份模型来解决很多有趣的问题,譬如探索特定 DNA 序列中的突变如何改变染色质构象。

论文链接:https://www.science.org/doi/10.1126/sciadv.adr8265

相关资讯

剑桥团队革新RNA速率分析:AI算法突破基因动态追踪

编辑丨&RNA 速率模型利用剪接和未剪接的 RNA 计数中包含的时间信息来推断转录动力学,但现有的速率模型通常依赖于粗略的生物物理简化或数值近似来求解基础常微分方程(ODE)。 英国剑桥大学主导的团队提出了 cell2fate,它允许以完全贝叶斯方式求解生物物理学上更准确的模型。 通过将 RNA 速率解决方案分解为模块,cell2fate 在 RNA 速率和统计降维之间建立了生物物理联系。
3/20/2025 2:12:00 PM
ScienceAI

病毒接下来会做什么?AI 正在帮助科学家预测它们的演变

编辑丨toileter目前期望的防范病毒的措施是通过查看病毒的基因序列来预测病毒将如何进化。 距离那种方法还有很长的路要走,但越来越多的研究小组正在使用人工智能 (AI) 来预测 SARS-CoV-2、流感和其他病毒的进化。 病毒(尤其是 SARS-CoV-2 等 RNA 病毒)通过积累新的突变不断进化。
1/13/2025 3:03:00 PM
ScienceAI

分类准确率达99%,山大团队提出基于对比学习的基因数据分类方法

编辑 | 萝卜皮深度神经网络模型的快速进步显著增强了从微生物序列数据中提取特征的能力,这对于解决生物学挑战至关重要。 然而,标记微生物数据的稀缺性和复杂性给监督学习方法带来了巨大的困难。 为了解决这些问题,山东大学的研究人员提出了 DNASimCLR,这是一个专为高效基因序列数据特征提取而设计的无监督框架。
10/31/2024 3:46:00 PM
ScienceAI