基于Transformer和注意力的可解释核苷酸语言模型,用于pegRNA优化安排

编写 | 紫罗基因编写是一种新兴的、比较精确的能对生物体基因组特定目标基因进行修饰的一种基因工程技术。先导编写(Prime editor, PE)是美籍华裔科学家刘如谦(David R.Liu)团队开发的精准基因编写系统,PE 是一种很有前途的基因编写工具,但由于缺乏准确和广泛适用的方法,有效优化先导编写 RNA(prime editing guide RNA, pegRNA)安排仍然是一个挑战。近日,来自重庆医科大学、西北农林科技大学、云南民族大学、浙江大学医学院和中国科学院数学与系统科学钻研院生物信息学中心(B

基于Transformer和注意力的可解释核苷酸语言模型,用于pegRNA优化安排

编写 | 紫罗

基因编写是一种新兴的、比较精确的能对生物体基因组特定目标基因进行修饰的一种基因工程技术。

先导编写(Prime editor, PE)是美籍华裔科学家刘如谦(David R.Liu)团队开发的精准基因编写系统,PE 是一种很有前途的基因编写工具,但由于缺乏准确和广泛适用的方法,有效优化先导编写 RNA(prime editing guide RNA, pegRNA)安排仍然是一个挑战。

近日,来自重庆医科大学、西北农林科技大学、云南民族大学、浙江大学医学院和中国科学院数学与系统科学钻研院生物信息学中心(Bioinformatics Center of AMMS)的多学科多机构钻研团队开发了优化的先导编写安排(Optimized Prime Editing Design,OPED),这是一种可解释的核苷酸语言模型,利用迁移学习来提高其准确性和通用性,用于预计 pegRNA 的服从和安排优化。

对各种已发布数据集的综合考证表明,OPED 在不同情景下的服从预计中具有广泛的适用性。值得注意的是,具有高 OPED 分数的 pegRNA 始终显示出显著提高的编写服从。

此外,利用优化后的 pegRNA 在 PE2、PE3/PE3b 和 ePE 编写系统中高效地安装各种 ClinVar 致病变异,证实了OPED 在安排优化中的多功能性和有效性。OPED 始终优于现有的最先进的方法。

钻研人员构建了 OPEDVar 数据库,该数据库从超过 20 亿个候选物中优化了所有致病性变体的安排,并提供了一个可用于任何所需编写的用户友好的 OPEDVar web 应用程序。

该钻研以《Design of prime-editing guide RNAs with deep transfer learning》为题,于 2023 年 10 月 26 日发布在《Nature Machine Intelligence》上。

基于Transformer和注意力的可解释核苷酸语言模型,用于pegRNA优化安排

优化 pegRNA 安排面临挑战

PE 是一种多功能和精确的基因组编写技术,可以在没有 DNA 双链断裂或供体 DNA 模板的情况下引入插入、缺失和所有 12 种可能的点突变。PE2 是一个基本的 PE 版本,包括 Cas9 缺口酶-逆转录酶融合蛋白,Cas9 缺口酶诱导DNA 单链断裂,以及 pegRNA。pegRNA 包含三个基本亚序列:一个引导序列(间隔),一个引物结合位点(PBS)和一个逆转录模板(RTT)。在 PE3/PE3b 和 ePE 等高级 PE 版本中,使用额外的单向导 RNA(sgRNA)在相反的链上诱导缺口。

目前,PE 技术正处于快速优化阶段,包括修饰 pegRNA 的序列和结构,调控相关修复途径,以及利用配对 PE 策略。重要的是,PE 服从明显受到 pegRNA 的特性影响,这凸显了在最终应用前对 pegRNA 进行优化的必要性和重要性。

针对不同的编写类型和不同的编写位置定制 pegRNA 安排是一项复杂且耗时的任务。最近已经开发了三个基于机器学习的模型(DeepPE, Easy-Prime 和 PRIDICT)来优化 pegRNA 安排。然而,这些模型严重依赖于人工特性工程,涉及许多预定义的 pegRNA 特性的计算。这些模型可能会忽略关键的见解,并导致有限的准确性和概括性。此外,它们本质上缺乏可解释性,就像黑盒子一样。因此,采用诸如 SHAP 之类的事后可解释方法来提供特性重要性。

OPED 用于 pegRNA 的服从预计和安排优化

受自然语言处理技术的启发,钻研人员开发了一个定制的基于 Transformer 和注意力的 OPED 模型,用于 pegRNA 的服从预计和安排优化。为了提高其准确性和泛化性,将迁移学习引入到预训练和微调中。通过直接处理原始核苷酸序列,OPED 自动学习 DNA-pegRNA 对的全面和可解释的表示,从而消除了对预定义特性的需要。

定制的 Transformer 熟练地处理可变长度序列,并有效地表征核苷酸之间的空间相互依赖性以及目标 DNA 和 pegRNA 之间的互补碱基配对特性。定制的注意力网络计算每个核苷酸的注意力权重,并随后基于这些权重整合相关信息。

基于Transformer和注意力的可解释核苷酸语言模型,用于pegRNA优化安排

图 1:OPED 模型的框架。(来历:论文)

钻研证明了在不同编写类型、编写位置、内源性位点、实验室环境、tevopreQ1 条件、错配修复(MMR)抑制条件、体外细胞系和体内小鼠肝细胞中,OPED 预计 pegRNA 服从的通用性和准确性。值得注意的是,在上述情况下,与 OPED 得分较低的 pegRNA 相比,较高 OPED 编写得分的 pegRNA 的编写服从高得多(2.2-82.9 倍)。

基于Transformer和注意力的可解释核苷酸语言模型,用于pegRNA优化安排

图 2:OPED 在已发布数据集上的性能评估。(来历:论文)

基于Transformer和注意力的可解释核苷酸语言模型,用于pegRNA优化安排

图 3:在不同的 PRIDICT 数据集上考证 OPED。(来历:论文)

此外,通过使用 PE2、PE3/PE3b 和 ePE 编写系统的优化 PE 安排(pegRNA 和 sgRNA)有效安装各种 ClinVar 致病性变体,考证了 OPED 的广泛适用性和卓越性能。

基于Transformer和注意力的可解释核苷酸语言模型,用于pegRNA优化安排

图 4:人类致病变异与优化 PE 安排的安装。(来历:论文)

值得注意的是,与现有 PE 安排工具相比,OPED 推荐的 PE 安排显示出更高的平均编写服从(PE2,2.1–6.8 倍;PE3/PE3b,7.9–24.6 倍;ePE,3.4–47.5 倍)。在所有比较中,OPED 始终优于现有 PE 安排工具。

基于Transformer和注意力的可解释核苷酸语言模型,用于pegRNA优化安排

图 5:PE 优化安排的实验考证。(来历:论文)

此外,钻研人员构建了一个综合数据库 OPEDVar,包含针对 77000 多种 ClinVar 致病性变体的优化 PE 安排,并为 OPED 开发了一个用户友好的 web 应用程序(http://bicdb.ncpsb.org.cn/OPED/)。

基于Transformer和注意力的可解释核苷酸语言模型,用于pegRNA优化安排

图 6:OPEDVar 数据库和 OPEDVar web 应用。(来历:论文)

值得注意的是,OPED 仅在具有规范 NGG PAM 的 PE2 数据集上进行训练。因此,尽管经过实验考证,OPED 能够在包括 NG PAM 在内的不同场景下优化 pegRNA 和 sgRNA,但其预计其他 PE 版本服从的能力有限,其在 NG PAM 上的性能需要更多的实验考证。

未来钻研

在未来的钻研中,钻研人员建议利用人工智能技术全面系统地优化 pegRNA 和其他序列,如支架序列、nick sgRNA、3′ 结构 RNA 基序和连接子序,前提是获得足够的数据。

此外,通过新的基于人工智能的技术,可以改善含有与工程逆转录酶融合的 Cas9 切口酶的 PE 的效应。

论文链接:https://www.nature.com/articles/s42256-023-00739-w

给TA打赏
共{{data.count}}人
人已打赏
应用

图灵奖得主吵起来了,LeCun:Bengio、Hinton等的AI灭绝论是荒谬的

2023-10-30 17:24:00

应用

亲测可用!ChatGPT-4 会员充值攻略大揭秘!

2023-10-31 7:44:18

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索