性能远超当前SOTA,首个可解释RNA的AI植物基础模型来了,整合1124种植物RNA信息

编辑丨&植物 RNA 的复杂序列编码了大量的生物调节元件,这些元件在协调植物生长、发育和适应环境压力的关键方面起到重要作用。 基础模型 (FM) 的最新进展证明了它们在破译生物学中复杂“语言”方面前所未有的潜力。 于最近的研究中,东北师范大学、英国约翰·英尼斯中心( John Innes Centre)和埃克塞特大学(University of Exeter)等组成的团队提出了 PlantRNA-FM,一种专为植物设计的高性能且可解释的 RNA 基础模型。

图片

编辑丨&

植物 RNA 的复杂序列编码了大量的生物调节元件,这些元件在协调植物生长、发育和适应环境压力的关键方面起到重要作用。基础模型 (FM) 的最新进展证明了它们在破译生物学中复杂“语言”方面前所未有的潜力。

于最近的研究中,东北师范大学、英国约翰·英尼斯中心( John Innes Centre)和埃克塞特大学(University of Exeter)等组成的团队提出了 PlantRNA-FM,一种专为植物设计的高性能且可解释的 RNA 基础模型。

模型整合了来自 1,124 种不同植物物种的 RNA 序列和 RNA 结构信息,PlantRNA-FM 在植物特异性下游任务中表现出卓越的性能。

PlantRNA-FM 的基因区域注释 F1 评分为 0.974,而目前表现最好的模型达到 0.639。

PlantRNA-FM 由团队的可解释框架提供支持,有助于识别具有生物学功能的 RNA 序列和结构基序,包括跨转录组的 RNA 二级和三级结构基序,使植物科学家能够对植物中的 RNA 密码进行编程。

本成果以「An interpretable RNA foundation model for exploring functional RNA motifs in plants」为题,于 2024 年 12 月 9 日刊登于《Nature Machine Intelligence》。

图片

通过实验验证,该团队揭示了植物中翻译相关的 RNA 基序。PlantRNA-FM 还强调了这些功能 RNA 基序在基因区域的位置信息的重要性。

PlantRNA-FM

随着 AI 领域的基础模型 FM 激增,生命科学的推进脚步也在加快。FM 的特点是规模庞大,通常包含数百万乃至数十亿个参数。这些参数以自我监督的方式对各种形式的未标记数据进行预训练。

这种庞大的标记获取量对于贪婪而需求苛刻的生物科学来说是最理想的选择。更重要的是,FM 通过微调就会具有高度适应性,有望帮助科学家通过定制专用 FM 来求解复杂生物过程。

为了理解 RNA,研究人员需要使用序列信息对 PlantRNA-FM 进行预训练。但是光有序列信息是不够的,因为 RNA 可以形成对其功能很重要的二级或三级结构基序。

团队创造性地开发了 PlantRNA-FM,旨在全局识别植物中的功能性 RNA 基序,包括 RNA 序列和结构基序。通过整合来自 1,124 种不同植物物种的 RNA 序列、注释和结构信息,PlantRNA-FM 捕获了植物转录组的广泛多样性。

图片

图 1:PlantRNA-FM预训练阶段示意图。

值得注意的是,PlantRNA-FM 在转录组范围的尺度上鉴定了对翻译功能很重要的 RNA 基序,包括 RNA 序列以及二级和三级结构基序。

PlantRNA-FM 的开发代表了团队在转录组中核苷酸的广泛复杂性中破译隐藏的调控密码的能力方面取得了显著的飞跃,为基于 RNA 的基因调控开辟了新的途径。

卓越性能与实际成果

开发团队利用1,124个物种的转录测序资源,为 PlantRNA-FM 生成了预训练数据集。针对 RNA 理解而不是生成进行优化。

他们的标记化方法确保在整个预训练过程中将 RNA 结构基序保存为连贯单元。此外,他们还整合了RNA 注释信息(CDS 和 UTR)并使用了先进的预训练技术,如序列截断、过滤和掩蔽核苷酸建模。

F1 分数是精确率和召回率的调和平均值,用于衡量模型在这些数据集上的预测性能。在这项数值上面,PlantRNA-FM 的三个得分为 0.750、0.924 和 0.981,而单独的 RNAfold 仅获得 0.278、0.759 和 0.748 。

得益于对 RNA 结构信息的独特整合,PlantRNA-FM 可以更准确地预测 RNA 结构。而为了更好的评估 PlantRNA-FM 的性能,团队策划了一个基准集,由其他四个最先进的 FM 组成。

图片

图 2:在植物特异性数据集上微调 PlantRNA-FM。

团队采用了两种未包含在预训练集中的植物的转录组,并分别对其 RNA 基因注释区预测。最终结果是 PlantRNA-FM 以高于第二名近50%的分数稳居第一。

团队意识到,AI 模型应用在生物学的关键应该是在于揭示 AI 在其中学习到的生物学原理。

为此,他们建立了一个可解释框架,并开发了两个并行模型。前者是真实模型,后者是背景模型,采用相同的数据集进行修改,但标签分配更随机。

实验结果显示,背景模型更接近于随机机会,约为 50%,真实模型则高得多。这表明真实模型已成功学习相关 RNA 特征。

图片

图 3:模型可解释框架揭示了翻译相关的 RNA 特征。

团队利用模型的注意力对比矩阵与无监督的分层聚类策略进一步确定了对翻译很重要的 RNA 二级结构基序。

特别的是,通过 PlantRNA-FM,他们还测得具有高鸟嘌呤-胞嘧啶 (GC) 碱基对的低翻译相关 RNA 二级结构基序与具有 GC 和腺嘌呤-尿嘧啶 (AU) 碱基对平衡比例的高翻译相关 RNA 结构基序。

除此之外,团队还利用 PlantRNA-FM 在转录组范围的规模上鉴定了翻译相关的 rG4s。结果表明,PlantRNA-FM也能够识别整个转录组中的功能性 RNA 三级结构基序。

开创性的模型

与传统的基因分析相比,PlantRNA-FM 能够全面了解功能性 RNA 基序,例如 RNA 基序的类型、基因位置以及对其功能的确切贡献,包括正负面的影响。

创建者表示,该模型是一项智能技术突破,可以推动植物科学的发现和创新,并有可能在整个无脊椎动物和细菌的研究中。

这一突破为理解和可能对植物进行编程创造了新的可能性,很大概率会对作物改良和下一代基于 AI 的基因设计产生深远影响。

这是第一个具有 RNA 序列和结构信息的可解释 RNA FM,能够阐明植物中新的翻译相关 RNA 基序。PlantRNA-FM 有望改变人类确定调节基因表达的 RNA 基序方式,为 RNA 密码编程开辟了全新的视野。

原文链接:https://www.nature.com/articles/s42256-024-00946-z

相关报道:https://phys.org/news/2024-12-ai-rna-language-life.html

源代码:https://huggingface.co/yangheng/PlantRNA-FM

相关资讯

AI 发现16万种新RNA病毒成果登上《Cell》后,我们和阿里云算法专家贺勇聊了聊

近期,AI for Science 领域的惊喜不断,持续在物理、化学、生物领域开花结果。 不仅诺贝尔物理和化学奖双双颁给 AI 领域的科学家,阿里云与中山大学的科研也带来了RNA病毒寻找的突破,国际顶级学术期刊《Cell》收录了这一研究论文。 《基于人工智能探索和记录隐藏的RNA病毒世界》论文提出深度学习模型"LucaProt",用于快速准确判别RNA病毒,颠覆传统病毒发现方法。

ScienceAl 2024「AI+蛋白&核酸&分子互作」专题年度回顾

编辑 | 萝卜皮2024年,科学界迎来了重要的突破与创新,尤其是在人工智能与结构生物学的结合领域。 正如今年诺贝尔奖颁发所体现的那样,人工智能(AI)技术的迅猛发展正在推动各学科的深度融合,揭示了生命科学研究的新机遇与前景。 在这一年里,AI 与生物学的交汇点愈发引人注目,成为推动现代生物医药、医学研究、生命科学等领域变革的重要力量。

分类准确率达99%,山大团队提出基于对比学习的基因数据分类方法

编辑 | 萝卜皮深度神经网络模型的快速进步显著增强了从微生物序列数据中提取特征的能力,这对于解决生物学挑战至关重要。 然而,标记微生物数据的稀缺性和复杂性给监督学习方法带来了巨大的困难。 为了解决这些问题,山东大学的研究人员提出了 DNASimCLR,这是一个专为高效基因序列数据特征提取而设计的无监督框架。