中国科学家运用人工智能算法发现大量全新 RNA 病毒,大幅拓宽 RNA 病毒库

AI在线从中山大学官方微信公众号获悉,10 月 9 日,中山大学医学院施莽教授团队与阿里云李兆融团队在《细胞》(Cell)杂志上发表论文,报告了 180 个超群、超过 16 万种全球 RNA 病毒的发现,这是迄今为止规模最大的 RNA 病毒研究,大幅扩展了全球 RNA 病毒的多样性,该研究将人工智能技术应用于病毒鉴定,发现了传统方法未能发现的病毒“暗物质”,探索了病毒学研究的新路径。据介绍,传统的病毒发现方法包括病毒分离和生命组学的生物信息学分析,高度依赖既有知识,面对 RNA 病毒这种高度分化、种类繁多且容易变异

AI在线从中山大学官方微信公众号获悉,10 月 9 日,中山大学医学院施莽教授团队与阿里云李兆融团队在《细胞》(Cell)杂志上发表论文,报告了 180 个超群、超过 16 万种全球 RNA 病毒的发现,这是迄今为止规模最大的 RNA 病毒研究,大幅扩展了全球 RNA 病毒的多样性,该研究将人工智能技术应用于病毒鉴定,发现了传统方法未能发现的病毒“暗物质”,探索了病毒学研究的新路径。

据介绍,传统的病毒发现方法包括病毒分离和生命组学的生物信息学分析,高度依赖既有知识,面对 RNA 病毒这种高度分化、种类繁多且容易变异的病毒识别效率低。该研究团队开发的 LucaProt 人工智能算法能够对病毒和非病毒基因组序列深度学习,并在数据集中自主判断病毒序列。

图片

据AI在线了解,LucaProt 是一种能够深度学习的 Transformer 模型,在大量学习病毒和非病毒基因组序列后,可以自主形成一套关于病毒的判断标准,从而在大量的 RNA 测序数据集中挖掘出病毒序列。在测试中,LucaProt 表现出极高的准确性和特异性,假阳性率为 0.014%,假阴性率为 1.72%。在与其他病毒挖掘工具的对比中,它也在处理较长序列的方面展现出优势。

利用 LucaProt,研究团队对来自全球生物环境样本的 10,487 份 RNA 测序数据进行病毒挖掘,发现了超过 51 万条病毒基因组,代表超过 16 万个潜在病毒种及 180 个 RNA 病毒超群(相当于门或纲的分类级别),使 RNA 病毒超群数量扩容约 9 倍。其中 23 个超群无法通过序列同源方法识别,被称为病毒圈的“暗物质”。

在这项研究中,团队报告了迄今最长的 RNA 病毒基因组,长度达到 47,250 个核苷酸发现了超出以往认知的基因组结构,展现出 RNA 病毒基因组进化的灵活性;识别到多种病毒功能蛋白,特别是与细菌相关的功能蛋白,进一步表明还有更多类型的 RNA 噬菌体亟待探索。

研究指出,新发现的病毒分布在地球的各类生态环境中。总体上,落叶层、湿地、淡水和废水环境的病毒多样性最高。然而,在南极底泥、深海热泉、活性污泥和盐碱滩等极端环境中,RNA 病毒的多样性和丰度并不低,甚至在深海热泉的高温环境中,仍有 RNA 病毒在活跃复制。

LucaProt 虽然是一个专门为 RNA 病毒发现设计的模型,但它同时融合了对蛋白质序列和隐含结构信息识别的功能,也可用于蛋白质功能的鉴定。在论文中,研究团队开源了 LucaProt 模型,并通过在线网站分享给全球科学家。

相关资讯

AI发现超16万种新RNA病毒?阿里云、中山大学合作研究登Cell

编辑 | 萝卜皮人工智能(AI)已被用来揭示地球各个角落的多种基本生命体。阿里云、中山大学、悉尼大学等机构的合作团队开发了一种深度学习算法,称为 LucaProt,用于发现来自全球不同生态系统的 10,487 个宏转录组中高度分化的 RNA 依赖性 RNA 聚合酶 (RdRP) 序列。LucaProt 整合了序列和预测结构信息,从而能够准确检测 RdRP 序列。

70 亿参数训练,从DNA、RNA、蛋白质到全基因组,生物学通用大模型新标杆

编辑 | 萝卜皮基因组是完整编码 DNA、RNA 和蛋白质的序列,这些序列协调整个生物体的功能。机器学习的进步与全基因组的海量数据集相结合,可以实现生物基础模型,加速复杂分子相互作用的机械理解和生成设计。斯坦福大学(Stanford University)和 Arc Institute 的研究人员开发了 Evo,这是一种基因组基础模型,可进行多模态和多尺度学习,能完成从分子到基因组规模的预测和生成任务。使用基于深度信号处理进步的架构,该团队将 Evo 扩展到 70 亿参数,单核苷酸字节分辨率的上下文长度为 131

登Science封面!基因组基础模型Evo重磅发布,AI解码分子、DNA、RNA和蛋白质

编辑 | X_XChatGPT 可以写小说、编写计算机代码、给出食谱,它的硅片上包含了互联网上的大部分信息。 如果它能对 DNA 做同样的事情会怎么样? 今天,刊登在《Science》封面上一项最新研究,美国 Arc 研究所(Arc Institute)和斯坦福大学的研究团队提出了一种机器学习模型「Evo」,其能够以无与伦比的准确性解码和设计从分子到基因组规模的 DNA、RNA 和蛋白质序列。