编辑 | 萝卜皮
增强子通过与转录因子 (TF) 相互作用,在各种生物过程中充当基因表达的关键调节器。虽然转录因子结合位点 (TFBS) 被广泛认为是 TF 结合和增强子活性的关键决定因素,但其周围背景序列的重要作用仍有待定量表征。
清华大学的研究团队提出了转录因子结合单元(transcription factor binding unit,TFBU)概念,通过使用深度学习模型量化 TFBS 周围上下文序列的影响,模块化地建模增强子。
基于这一概念,研究人员开发了 DeepTFBU,这是一个用于增强子设计的综合工具包。
该团队证明设计 TFBS 上下文序列可以显著调节增强子活性并产生细胞类型特异性反应。DeepTFBU 在从头设计包含多个 TFBS 的增强子方面也非常高效。此外,DeepTFBU 可以灵活地解耦和优化广义增强子。
该研究以「Modeling and designing enhancers by introducing and harnessing transcription factor binding units」为题,于 2025 年 2 月 8 日发布在《Nature Communications》。
相关背景
精确调控基因表达在发育和分化等复杂生物过程中至关重要。这种调控的核心是转录因子 (TF) 与增强子的结合。解读增强子的活性有助于深入了解基因调控的基本原理,并有助于设计合成增强子以在基因工程和基因治疗应用中操纵基因表达。
传统上,转录因子结合位点(TFBS),特别是通常为 5 至 20 个碱基对的 TF 结合基序,被认为是 TF 与增强子结合的关键决定因素。研究表明,在 DNA 序列中排列多个 TFBS 可以提高其作为增强子的功能。TFBS 的方向和序列顺序也会显著影响增强子活性。利用这些特性,操纵 DNA 序列上的 TFBS 排列和组合被广泛用于设计合成增强子。
TFBU 概念
在最新的研究中,研究人员提出了转录因子结合单元(TFBU)的概念,用于模块化增强子建模和设计。TFBU 概念整合了核心 TFBS 及其周围上下文序列(TFBS-context)的作用。
这种整合使得定量评估长 DNA 序列结合目标 TF 和驱动特定细胞类型中的转录(增强子活性)的潜力成为可能。利用深度学习模型,研究人员从染色质免疫沉淀测序 (ChIP-seq) 数据中确定了影响 TF 结合的 TFBS 环境中的关键模式。这些模型有助于合理设计具有所需功能的合成增强子,将特定 TF 的设计范围从核心 TFBS 扩展到整个增强子序列。
DeepTFBU 工具包
图示:基于 TFBU 构建 TFBS-上下文模型及下游任务的过程。(来源:论文)
基于 TFBS 上下文模型,该团队开发了一系列增强子设计方法,并将它们集成到名为 DeepTFBU 的工具包中。
该研究中,基于大规模并行报告基因检测 (MPRA) 实验的限制和模型性能,TFBU 的典型长度被设置为 168 个碱基对。每个 TFBU 由两部分组成:核心 TFBS 及其上下文序列(表示为 TFBS-context)。
为了评估 TFBU 的绑定效果,研究人员分别量化了特定 TF 的两个部分的匹配分数。核心 TFBS 的匹配分数是使用位置概率矩阵直接计算的。与核心 TFBS 不同,TFBS 上下文包含无法直接量化的复杂和隐式特征。为了解决这个问题,我研究人员采用深度学习模型来提取人类基因组中 TFBS 上下文的 TF 特定偏好,从而获得 TFBS 上下文匹配分数。
测试与应用
研究人员测量了 DeepTFBU 设计的超过 36,000 个序列的增强子活性,用于验证在各种情况下的增强子建模和设计策略。结果表明,功能性 TFBS 上下文的序列模式可以特定于 TF 和细胞类型。
设计 TFBU 内的上下文序列可以显著调节大多数 TFs(82.9%,97/117)的增强子活性。对于单个 TFBU,这样的设计可以在不引入其他明显 TFBS 的情况下实现平均 20 倍以上的增强子活性增加。
图示:MPRA 实验表明 TFBS 环境显著影响增强子活性。(来源:论文)
它还可以产生高达 60 倍的细胞类型特异性增强子活性。此外,基于 TFBU 的策略可以扩展到包含多个 TFBS 的增强子的从头设计。并且,设计上下文序列可以将包含串联重复 TFBS 的典型合成增强子的活性提高 30 倍以上。
研究人员还提出了一个灵活且通用的增强子优化框架,将增强子效应分解到各个 TFBU 中。利用这个框架,他们仅用少量突变就将巨细胞病毒 (CMV) 增强子的活性提高了 60%。
图示:将增强子效应分解为单个 TFBU 效应的组合,并用基于 TFBU 的框架优化现有的强增强子。(来源:论文)
这表明增强子序列可以模块化为 TFBU,并以直观易懂和模块化自下而上的方式使用 TFBU 进行重新设计。所有这些结果证明 TFBU 是增强子建模和设计的关键概念,而 DeepTFBU 是合理设计增强子的强大工具包。
结语
该团队之前的工作中,研究人员利用深度学习模型 DeepSEED 提取的天然增强子的共同特征,通过在 TFBS 之间设计序列成功地提升了增强子的活性。该方法适用于提供靶基因调控元件一般模式信息的序列数据。
在这项工作中,研究人员强调了 TF 特异性和细胞类型特异性偏好对核心 TFBS 周围上下文序列的影响。
这使得对核心 TFBS 之外的序列进行详细而精确的建模成为可能,并且可以在大量公开数据的支持下作为增强子的通用基本特征。该方法还可以精确设计针对特定 TF 和细胞类型的基因调控元件。
在未来的研究中,通过利用更多有关 TFs 和 TFBU 特性的信息,研究人员可以构建更详细、更全面的 TFBU 系统,从而促进基于 TFBU 的更精确的 DNA 序列建模和调控元件设计。
论文链接:https://www.nature.com/articles/s41467-025-56749-2