编辑 | 萝卜皮
翻译延长对于维持细胞蛋白质稳态至关重要,并且翻译景观的改变与一系列疾病相关。核糖体阐发可以在基因组规模上详细测量翻译。然而,目前尚不清楚如何从这些数据中的技术产物中分离出生物变异,并辨认翻译失调的序列决定因素。
在最新的钻研中,中国科学院、哈佛大学(Harvard University)、斯坦福大学(Stanford University)、约翰霍普金斯大学(Johns Hopkins University)的钻研团队开发了 Riboformer,一个基于深度学习的框架,用于对翻译动态中上下文相关的变化进行建模。
Riboformer 利用 Transformer 架构,能够以密码子分辨率准确预测核糖体密度。当在无偏数据集上进行训练时,Riboformer 会纠正以前未见过的数据集中的实验伪影,这展现了同义密码子翻译中的细微差异,并展现了翻译延长的瓶颈。
钻研人员表明 Riboformer 可以与计算机诱变相结合,以辨认有助于核糖体在各种生物环境(包括衰老和病毒感染)中停滞的序列基序。
该钻研以「Riboformer: a deep learning framework for predicting context-dependent translation dynamics」为题,于 2024 年 3 月 5 日发布在《Nature Communications》。
翻译动态阐发的挑战性
核糖体以不同的速率沿着 mRNA 移动,这会作用蛋白质稳态和细胞功能。转录组的延长率是由局部序列特征(例如 mRNA 二级结构、带电氨基酸簇和连续脯氨酸残基)与全局因素(例如细胞资源可用性和蛋白质质量控制)之间复杂的相互作用决定的。
这些错综复杂的问题会作用翻译效率、共翻译蛋白质折叠和共价修饰。细胞必须微调延长率,以达到每个 mRNA 的适当蛋白质输出水平,满足调节和蛋白质折叠的需求。但是在理解翻译动力学方面,破译复杂疾病中翻译失调和蛋白质稳态崩溃的调控密码仍然具有挑战性。
核糖体阐发的出现使科学家对 mRNA 翻译的理解取得了实质性进展。核糖体阐发捕获并测序受核糖体保护免于核酸酶消化的 mRNA 片段,从而可以可靠地推断每个足迹中的核糖体解码位点,并产生有关每个基因的 mRNA 上核糖体分布的信息。
一般来说,密码子上的核糖体密度越大,解码速度就越慢。科学家发现非最佳密码子具有更高的核糖体密度,且解码速度更慢。科学家已经开发了几种计算要领,但人们很少致力于对翻译动态中上下文相关的变化进行建模。并且,现有的计算工具缺乏使用多个数据集(有偏与无偏)来模拟这些伪影引起的核糖体分布变化的能力。
其次,在复杂的生理状态下驱动翻译景观变化的潜在机制,在很大程度上仍然难以捉摸。即便以疾病为中心的钻研通常采用病例与对照等设计原则,但目前的要领并未利用这些要领来展现作用疾病进展中翻译延长的序列特征。另外,当前模型的预测能力有限。训练后的模型不能用于改进现有实验的阐发或预测新环境中的核糖体分布。
深度学习框架 Riboformer
为了应对这些挑战,中国科学院、哈佛大学、斯坦福大学、约翰霍普金斯大学的钻研人员提出了 Riboformer,这是一种基于深度学习的框架,可以模拟密码子分辨率下核糖体动力学中上下文相关的变化。
该模型比较了两个数据集之间的核糖体分布,并提取驱动它们之间差异的序列特征。这种结构使经过训练的 Riboformer 模型能够从输入数据集中消除实验偏差,查询核糖体密度相对变化的序列决定因素,并根据单体谱预测核糖体碰撞(二体)位点。
图示:Riboformer 概述。(来源:论文)
该要领基于 Transformer 架构,可以有效地捕获翻译延长调节中密码子之间的相互依赖性。钻研人员使用各种原核和真核核糖体阐发数据集对 Riboformer 的预测性能进行了基准测试。
测试结果证明,该神经网络结构在模拟实验方案对体内翻译景观的作用方面有效,并且经过训练的 Riboformer 模型可以纠正各种未见过的数据集中的伪影。这个过程展现了同义密码子翻译中的细微差异,并展现了翻译延长中的潜在瓶颈。
与计算机诱变阐发相结合,Riboformer 可以辨认在各种生物环境(例如衰老和病毒感染)中导致核糖体停滞的肽基序,证明了其在不同钻研领域的多功能性。
图示:Riboformer 捕捉翻译动态的上下文依赖性。(来源:论文)
Riboformer 可用于药物靶点
通过模拟序列突变对核糖体占用的作用,Riboformer 模型辨认了负责核糖体碰撞的序列,提供了超越简单基序阐发的见解。这种要领能够对核糖体暂停位点进行精细分类,展现氨基酸电荷和 mRNA 结构对核糖体碰撞的作用,并确定富含脯氨酸的基序对年轻和老化酵母中核糖体停顿的作用。
此外,它还提供了对翻译动力学调控密码的深入了解,有助于发现新的治疗靶点。该团队应用 Riboformer 阐发 SARS-CoV-2 感染人类细胞后的核糖体谱。
图示:SARS-CoV-2 规范开放阅读框 (ORF) 的核糖体谱阐发。(来源:论文)
结果表明,脆性 X 智力迟钝蛋白 (Fragile X Mental Retardation Protein,FMRP) 的结合基序有助于感染后期核糖体占用率的增加。值得注意的是,FMRP 已被证明可以与多核糖体结合,该团队的结果表明脆性 X 综合征药物具有抑制 SARS-CoV-2 病毒繁殖的治疗潜力。
有趣的是,FMRP 对 ZIKA 病毒具有抗病毒活性。此外,一项新的钻研表明,通过抑制 mGluR5 可减少 SARS-CoV-2 病毒载量,mGluR5 是通过 FMRP 发出信号的脆性 X 综合征的主要药物靶点。
Riboformer 的局限性
Riboformer 框架也存在局限性。首先,它依赖现有的数据集进行训练。随着平移景观无偏测量技术的发展,钻研人员设想可以进一步训练新的 Riboformer 模型,以改进对有偏数据集的阐发。其次,与许多现有要领一样,Riboformer 不考虑翻译起始和终止,这两者都会作用核糖体沿着转录本排队。该模型在下游阐发中排除了基因编码区的前十个密码子。这可以在未来的工作中通过翻译起始率和延长率的系统量化和建模来解决。第三,由于训练样本数量有限,Riboformer 不适用于处理核糖体移码等罕见事件。
结语
总而言之,Riboformer 是一种端到端工具,有助于核糖体阐发数据集的标准化和解释,同时提供了一种对现有异质核糖体阐发数据集进行综合阐发的要领。比较多个物种的核糖体谱可以通过进化的视角钻研核糖体停滞,为钻研决定密码子选择和延长效率的进化力量铺平道路。
此外,随着单细胞 Ribo-seq 和 RIBOmap 等单细胞测序要领的快速发展,Riboformer 等上下文感知模型将使以细胞状态和细胞类型特异性方式钻研翻译动力学成为可能。当参考输入被屏蔽时,Riboformer 可以用作纯基于序列的模型,或者与 Scikit-ribo 和 choros 等其他计算要领结合使用,以更准确地估计核糖体分布。
同时,钻研人员认为 Riboformer 架构可以广泛适用于对其他类型的高通量测序数据中的实验偏差和生物变异进行建模。
Riboformer 获取:https://github.com/lingxusb/Riboformer/
论文链接:https://www.nature.com/articles/s41467-024-46241-8