可发现药物靶点,哈佛等机构开发了一种对蛋白建模的深度学习方法

编辑 | 萝卜皮翻译延伸对于维持细胞蛋白质稳态至关重要,并且翻译景观的改变与一系列疾病相关。核糖体分析可以在基因组规模上详细测量翻译。然而,目前尚不清楚如何从这些数据中的技术产物中分离出生物变异,并识别翻译失调的序列决定因素。在最新的研究中,中国科学院、哈佛大学(Harvard University)、斯坦福大学(Stanford University)、约翰霍普金斯大学(Johns Hopkins University)的研究团队开发了 Riboformer,一个基于深度学习的框架,用于对翻译动态中上下文相关的变

可发现药物靶点,哈佛等机构开发了一种对蛋白建模的深度学习方法

编辑 | 萝卜皮

翻译延伸对于维持细胞蛋白质稳态至关重要,并且翻译景观的改变与一系列疾病相关。核糖体分析可以在基因组规模上详细测量翻译。然而,目前尚不清楚如何从这些数据中的技术产物中分离出生物变异,并识别翻译失调的序列决定因素。

在最新的研究中,中国科学院、哈佛大学(Harvard University)、斯坦福大学(Stanford University)、约翰霍普金斯大学(Johns Hopkins University)的研究团队开发了 Riboformer,一个基于深度学习的框架,用于对翻译动态中上下文相关的变化进行建模。

Riboformer 利用 Transformer 架构,能够以密码子分辨率准确预测核糖体密度。当在无偏数据集上进行训练时,Riboformer 会纠正以前未见过的数据集中的实验伪影,这揭示了同义密码子翻译中的细微差异,并揭示了翻译延伸的瓶颈。

研究人员表明 Riboformer 可以与计算机诱变相结合,以识别有助于核糖体在各种生物环境(包括衰老和病毒感染)中停滞的序列基序。

该研究以「Riboformer: a deep learning framework for predicting context-dependent translation dynamics」为题,于 2024 年 3 月 5 日发布在《Nature Communications》。

可发现药物靶点,哈佛等机构开发了一种对蛋白建模的深度学习方法

翻译动态分析的挑战性

核糖体以不同的速率沿着 mRNA 移动,这会影响蛋白质稳态和细胞功能。转录组的延伸率是由局部序列特征(例如 mRNA 二级结构、带电氨基酸簇和连续脯氨酸残基)与全局因素(例如细胞资源可用性和蛋白质质量控制)之间复杂的相互作用决定的。

这些错综复杂的问题会影响翻译效率、共翻译蛋白质折叠和共价修饰。细胞必须微调延伸率,以达到每个 mRNA 的适当蛋白质输出水平,满足调节和蛋白质折叠的需求。但是在理解翻译动力学方面,破译复杂疾病中翻译失调和蛋白质稳态崩溃的调控密码仍然具有挑战性。

核糖体分析的出现使科学家对 mRNA 翻译的理解取得了实质性进展。核糖体分析捕获并测序受核糖体保护免于核酸酶消化的 mRNA 片段,从而可以可靠地推断每个足迹中的核糖体解码位点,并产生有关每个基因的 mRNA 上核糖体分布的信息。

一般来说,密码子上的核糖体密度越大,解码速度就越慢。科学家发现非最佳密码子具有更高的核糖体密度,且解码速度更慢。科学家已经开发了几种计算方法,但人们很少致力于对翻译动态中上下文相关的变化进行建模。并且,现有的计算工具缺乏使用多个数据集(有偏与无偏)来模拟这些伪影引起的核糖体分布变化的能力。

其次,在复杂的生理状态下驱动翻译景观变化的潜在机制,在很大程度上仍然难以捉摸。即便以疾病为中心的研究通常采用病例与对照等设计原则,但目前的方法并未利用这些方法来揭示影响疾病进展中翻译延伸的序列特征。另外,当前模型的预测能力有限。训练后的模型不能用于改进现有实验的分析或预测新环境中的核糖体分布。

深度学习框架 Riboformer

为了应对这些挑战,中国科学院、哈佛大学、斯坦福大学、约翰霍普金斯大学的研究人员提出了 Riboformer,这是一种基于深度学习的框架,可以模拟密码子分辨率下核糖体动力学中上下文相关的变化。

该模型比较了两个数据集之间的核糖体分布,并提取驱动它们之间差异的序列特征。这种结构使经过训练的 Riboformer 模型能够从输入数据集中消除实验偏差,查询核糖体密度相对变化的序列决定因素,并根据单体谱预测核糖体碰撞(二体)位点。

可发现药物靶点,哈佛等机构开发了一种对蛋白建模的深度学习方法

图示:Riboformer 概述。(来源:论文)

该方法基于 Transformer 架构,可以有效地捕获翻译延伸调节中密码子之间的相互依赖性。研究人员使用各种原核和真核核糖体分析数据集对 Riboformer 的预测性能进行了基准测试。

测试结果证明,该神经网络结构在模拟实验方案对体内翻译景观的影响方面有效,并且经过训练的 Riboformer 模型可以纠正各种未见过的数据集中的伪影。这个过程揭示了同义密码子翻译中的细微差异,并揭示了翻译延伸中的潜在瓶颈。

与计算机诱变分析相结合,Riboformer 可以识别在各种生物环境(例如衰老和病毒感染)中导致核糖体停滞的肽基序,证明了其在不同研究领域的多功能性。

可发现药物靶点,哈佛等机构开发了一种对蛋白建模的深度学习方法

图示:Riboformer 捕捉翻译动态的上下文依赖性。(来源:论文)

Riboformer 可用于药物靶点

通过模拟序列突变对核糖体占用的影响,Riboformer 模型识别了负责核糖体碰撞的序列,提供了超越简单基序分析的见解。这种方法能够对核糖体暂停位点进行精细分类,揭示氨基酸电荷和 mRNA 结构对核糖体碰撞的影响,并确定富含脯氨酸的基序对年轻和老化酵母中核糖体停顿的影响。

此外,它还提供了对翻译动力学调控密码的深入了解,有助于发现新的治疗靶点。该团队应用 Riboformer 分析 SARS-CoV-2 感染人类细胞后的核糖体谱。

可发现药物靶点,哈佛等机构开发了一种对蛋白建模的深度学习方法

图示:SARS-CoV-2 规范开放阅读框 (ORF) 的核糖体谱分析。(来源:论文)

结果表明,脆性 X 智力迟钝蛋白 (Fragile X Mental Retardation Protein,FMRP) 的结合基序有助于感染后期核糖体占用率的增加。值得注意的是,FMRP 已被证明可以与多核糖体结合,该团队的结果表明脆性 X 综合征药物具有抑制 SARS-CoV-2 病毒繁殖的治疗潜力。

有趣的是,FMRP 对 ZIKA 病毒具有抗病毒活性。此外,一项新的研究表明,通过抑制 mGluR5 可减少 SARS-CoV-2 病毒载量,mGluR5 是通过 FMRP 发出信号的脆性 X 综合征的主要药物靶点。

Riboformer 的局限性

Riboformer 框架也存在局限性。首先,它依赖现有的数据集进行训练。随着平移景观无偏测量技术的发展,研究人员设想可以进一步训练新的 Riboformer 模型,以改进对有偏数据集的分析。其次,与许多现有方法一样,Riboformer 不考虑翻译起始和终止,这两者都会影响核糖体沿着转录本排队。该模型在下游分析中排除了基因编码区的前十个密码子。这可以在未来的工作中通过翻译起始率和延伸率的系统量化和建模来解决。第三,由于训练样本数量有限,Riboformer 不适用于处理核糖体移码等罕见事件。

结语

总而言之,Riboformer 是一种端到端工具,有助于核糖体分析数据集的标准化和解释,同时提供了一种对现有异质核糖体分析数据集进行综合分析的方法。比较多个物种的核糖体谱可以通过进化的视角研究核糖体停滞,为研究决定密码子选择和延伸效率的进化力量铺平道路。

此外,随着单细胞 Ribo-seq 和 RIBOmap 等单细胞测序方法的快速发展,Riboformer 等上下文感知模型将使以细胞状态和细胞类型特异性方式研究翻译动力学成为可能。当参考输入被屏蔽时,Riboformer 可以用作纯基于序列的模型,或者与 Scikit-ribo 和 choros 等其他计算方法结合使用,以更准确地估计核糖体分布。

同时,研究人员认为 Riboformer 架构可以广泛适用于对其他类型的高通量测序数据中的实验偏差和生物变异进行建模。

Riboformer 获取:https://github.com/lingxusb/Riboformer/

论文链接:https://www.nature.com/articles/s41467-024-46241-8

相关资讯

将合成生物学与AI相结合,以无细胞方式寻找新抗生素

编辑 | 萝卜皮生物活性肽是健康和医学的关键分子。深度学习为生物活性肽的发现和设计带来了巨大的希望。然而,需要合适的实验方法来以高通量和低成本验证候选物。马克斯·普朗克陆地微生物研究所(Max Planck Institute for Terrestrial Microbiology)的研究团队建立了无细胞蛋白质合成(CFPS)管线,用于直接从 DNA 模板快速、廉价地生产抗菌肽 (AMP)。为了验证该平台,研究人员使用深度学习从头设计了数千个 AMP。使用计算方法,研究人员对使用 CFPS 管线生成和筛选的 50

生成394,760种蛋白质表征,哈佛团队开发AI模型,全面理解蛋白质上下文

编辑 | 萝卜皮了解蛋白质功能和开发分子疗法,需要破译蛋白质发挥作用的细胞类型,解析蛋白质之间的相互作用。然而,对跨生物背景蛋白质相互作用进行建模对于现有算法来说仍然具有挑战性。在最新的研究中,哈佛医学院的研究人员开发了 PINNACLE,这是一种生成情境感知蛋白质表征的几何深度学习方法。PINNACLE 利用多器官单细胞图谱,在情境化蛋白质相互作用网络上进行学习,从 24 种组织的 156 种细胞类型情境中生成 394,760 种蛋白质表征。该研究以「Contextual AI models for single

压缩率达10的48次方,实现蛋白序列空间极端压缩,清华EvoAI登Nature子刊

编辑 | 萝卜皮设计功能更佳的蛋白质需要深入了解序列和功能之间的关系,这是一个难以探索的广阔空间。 通过识别功能上重要的特征来有效压缩这一空间的能力极其宝贵。 清华大学的研究团队建立了一种称为 EvoScan 的方法,用于全面分割和扫描高适应度序列空间,以获得能够捕捉其基本特征(尤其是在高维度中)的锚点。