登Science封面!基因组基础模型Evo重磅发布,AI解码分子、DNA、RNA和蛋白质

编辑 | X_XChatGPT 可以写小说、编写计算机代码、给出食谱,它的硅片上包含了互联网上的大部分信息。 如果它能对 DNA 做同样的事情会怎么样? 今天,刊登在《Science》封面上一项最新研究,美国 Arc 研究所(Arc Institute)和斯坦福大学的研究团队提出了一种机器学习模型「Evo」,其能够以无与伦比的准确性解码和设计从分子到基因组规模的 DNA、RNA 和蛋白质序列。
图片

编辑 | X_X

ChatGPT 可以写小说、编写计算机代码、给出食谱,它的硅片上包含了互联网上的大部分信息。如果它能对 DNA 做同样的事情会怎么样?

今天,刊登在《Science》封面上一项最新研究,美国 Arc 研究所(Arc Institute)和斯坦福大学的研究团队提出了一种机器学习模型「Evo」,其能够以无与伦比的准确性解码和设计从分子到基因组规模的 DNA、RNA 和蛋白质序列。

图片

Evo 预测、生成和设计整个基因组序列的能力,可能会改变合成生物学的运作方式。

Evo 模型以数十亿条基因序列为基础,可以推断出细菌和病毒基因组的运作方式,并利用这些信息设计新的蛋白质甚至整个微生物基因组。

Evo 可以帮助科学家探索进化、研究疾病、开发新的治疗方法,并可能解答许多其他生物医学问题。

「该研究意义重大,作者对 Evo 进行的测试为 AI 提供了一个很好的应用展示。」阿贡国家实验室的计算生物学家 Arvind Ramanathan 看到论文后评价道。

该研究以「Sequence modeling and design from molecular to genome scale with Evo」为题,于 2024 年 11 月 15 发布在《Science》。

图片

论文链接:https://www.science.org/doi/10.1126/science.ado9336

众所周知,AlphaFold 可以根据蛋白质的氨基酸序列预测其结构。但 ChatGPT 和许多其他 AI 都是通用程序,即基础模型。基础模型的多功能性很有优势,科学家不必为每个任务构建和训练不同的模型,从而节省时间和金钱。ChatGPT 被称为大型语言模型 (LLM),因为它适用于几乎任何包含文字的文档,无论是政府报告还是食谱。

在分子生物学中,没有什么比 DNA 更基础的了,科学家们已经开发了一些基础模型,可以像分析 LLM 中的单词一样分析 DNA 序列。然而,这些 AI 只能解释和预测相对较短的 DNA 片段。

基因组基础模型 Evo

Evo 是为了克服这些限制而开发的,它是斯坦福大学计算生物学家 Brian Hie 团队的心血结晶,其中包括一些来自新成立的 Arc 研究所的研究人员。

基因组基础模型 Evo 是一个基于 StripedHyena 的基础模型,该模型在 270 万个进化多样的原核生物和噬菌体基因组上进行了预训练,从而获得对 DNA 语言的基本理解,可以预测 DNA 的功能或生成新的 DNA 序列。StripedHyena 架构混合了密集二次 Transformer 算子和次二次型 Hyena 算子。

为了确定 Evo 的最佳架构和缩放比例,研究比较了在计算最优边界上预训练的不同模型的缩放率,即在数据集大小和模型大小之间进行最佳计算分配。

图片

图示:基因组基础模型 Evo。(来源:论文)

该团队的一项改进是增加所谓的上下文长度,即模型在尝试寻找 DNA 模式时使用的搜索窗口。更大的上下文长度可以提高模型识别基因或其他 DNA 序列之间联系的能力。这种设计还使团队能够将 Evo 的分辨率提高到单个核苷酸(DNA 的组成部分)的水平,而之前的模型只能处理核苷酸组。

研究人员在构建 Evo 后对其进行了 4 周的训练,在此期间,该模型对 80,000 个微生物基因组以及数百万个针对细菌的病毒序列和质粒进行了自我学习。

Hie 说,理论上,恶意用户可以利用像 Evo 这样的模型来设计生物武器,因此研究人员从 AI 的训练集中删除了任何攻击人类或其他真核生物的病毒序列。总的来说,Evo 从 3000 亿个核苷酸的序列信息中学习。

图片

图示:对原核生物的基因组基础模型进行预训练。(来源:论文)

从分子到基因组的序列建模和设计

为了测试 Evo,研究人员要求它预测突变对蛋白质性能的影响。这些知识对于理解 DNA 「故障」如何导致疾病以及设计新药非常重要。

研究小组通过将 Evo 的预测与其他科学家在细菌细胞中诱发相同突变的已发表实验进行比较,来检查 Evo 的准确度。Evo 胜过之前从 DNA 序列数据推断突变效应的人工智能模型;其工作效果与其他依赖蛋白质序列的 AI 模型一样好。

像 ChatGPT 这样的 AI 模型如此有用的一个原因是它们可以创建新内容。「我们想证明我们的模型有这种能力,」Hie 说。因此,他的团队让 Evo 设计新版本的 CRISPR 基因组编辑器。这项任务很有挑战性,因为 CRISPR 包括两种必须协同工作的组件:DNA 切片 Cas 蛋白和将酶引导到要编辑的基因组位置的 RNA 分子。

Evo 首先研究了 70,000 多个编码 Cas 蛋白及其伴侣 RNA 的细菌 DNA 序列。然后,该模型设计了数百万个分子的潜在版本。研究人员挑选了 11 个最有前途的 Cas9 变体,并在实验室中合成了这些蛋白质。

研究人员发现,在试管实验中,Evo 设计的 Cas9 酶中最好的一种,在切割 DNA 方面与商业版本的蛋白质一样好。为了改进 Cas 蛋白,科学家们传统上一直在寻找具有更有效酶版本的细菌。

图片

图示:对 CRISPR-Cas 序列进行微调可以实现蛋白质-RNA 复合物的生成设计。(来源:论文)

Evo 还擅长多模态生成任务,团队通过生成合成的 CRISPR-Cas 分子复合物和转座系统证明了这一点。研究人员实验验证了 Evo 生成的 CRISPR-Cas 分子复合物以及 IS200 和 IS605 转座系统的功能活性,这是使用语言模型进行蛋白质-RNA 和蛋白质-DNA 协同设计的第一个实例。

图片

图示:对 IS200/IS605 序列进行微调可以实现可转座生物系统的生成设计。(来源:论文)

Hie 说,有了 Evo,「我们不必等待进化来创造新的 Cas9。」然而,和许多 LLM 一样,Evo 也「产生了幻觉」,提出了没有机会起作用的 Cas9。Hie 说,尽管产生了幻觉,但 AI 在寻找新分子选择方面仍然比「蛮力筛选或随机猜测」要好。

在 Hie 所说的研究中「最具未来感和最疯狂」的部分,研究人员要求 Evo 生成足够长的 DNA 序列作为细菌的基因组。他们发现,这些模拟基因组携带了细胞所需的许多基因,但缺少其他必需基因。不过,Hie 认为,这些结果可能是迈向 AI 设计的合成基因组的一步。

图片

图示:Evo 了解突变对不同细菌和噬菌体基因组的生物体适应性的影响。(来源:论文)

总体而言,研究人员报告了 DNA 的缩放定律,补充了自然语言和视觉中的类似观察结果。

Evo 经过 270 万个原核生物和噬菌体基因组的训练,展示了跨 DNA、RNA 和蛋白质模态的零样本函数预测,其性能可与特定领域的语言模型相媲美,甚至优于特定领域的语言模型。

基础模型很重要,实验室验证非常有力

基础模型很重要,因为「它们增强了我们理解和描述基因组的能力」,未参与这项研究的美国石溪大学(Stony Brook University)计算生物学家 Ramana Davuluri 说。「我认为这是超越现有模型的一大步。」

纽约市非营利组织 Tatta Bio 的计算生物学家 Yunha Hwang 说,这项研究之所以引人注目的一个原因是,研究人员在实验上证实了该模型的预测。Tatta Bio 专注于改进基因组 AI 模型。

「能够进行实验室验证非常有力,」未参与这项研究的 Hwang 说。德克萨斯大学 MD 安德森癌症中心的统计学家 Chong Wu 补充说,Evo 从中学到的大量数据也使这项研究与众不同。他说,模型吸收的信息越多,它就越可靠。

AI 的大部分研究工作都是在公司秘密进行的。但研究人员已公开发布 Evo,以便其他研究人员可以使用它,而 Hie 表示,该团队没有计划将其发明商业化。「目前,我将其视为一个研究项目。」

关于美国 Arc 研究所(Arc Institute)

图片

图示:Evo 团队(Arc Institute)。

Arc 总部位于加利福尼亚州帕洛阿尔托,是一家非营利性研究机构,其成立的初衷是相信许多重要的科学项目都可以通过新的组织模式来实现。Arc 是与斯坦福大学、加州大学旧金山分校和加州大学伯克利分校合作运营的。

Arc 为科学家提供无附加条件的多年期资金,这样他们就不必申请外部资助,并投资于实验和计算技术工具的快速开发。

Arc 的研究人员可以以个人身份跨学科合作研究复杂疾病,包括癌症、神经退行性疾病和免疫功能障碍。

Arc 的终极目标是加速科学进步,了解疾病的根本原因,并缩小发现与对患者的影响之间的差距。

机构官网:https://arcinstitute.org/

参考内容:

https://www.science.org/content/article/meet-evo-dna-trained-ai-creates-genomes-scratchhttps://www.science.org/doi/10.1126/science.adt3007https://endpts.com/arc-institute-debuts-ai-model-evo-makes-new-crispr-systems/ 

相关资讯

70 亿参数训练,从DNA、RNA、蛋白质到全基因组,生物学通用大模型新标杆

编辑 | 萝卜皮基因组是完整编码 DNA、RNA 和蛋白质的序列,这些序列协调整个生物体的功能。机器学习的进步与全基因组的海量数据集相结合,可以实现生物基础模型,加速复杂分子相互作用的机械理解和生成设计。斯坦福大学(Stanford University)和 Arc Institute 的研究人员开发了 Evo,这是一种基因组基础模型,可进行多模态和多尺度学习,能完成从分子到基因组规模的预测和生成任务。使用基于深度信号处理进步的架构,该团队将 Evo 扩展到 70 亿参数,单核苷酸字节分辨率的上下文长度为 131

中国科学家运用人工智能算法发现大量全新 RNA 病毒,大幅拓宽 RNA 病毒库

AI在线从中山大学官方微信公众号获悉,10 月 9 日,中山大学医学院施莽教授团队与阿里云李兆融团队在《细胞》(Cell)杂志上发表论文,报告了 180 个超群、超过 16 万种全球 RNA 病毒的发现,这是迄今为止规模最大的 RNA 病毒研究,大幅扩展了全球 RNA 病毒的多样性,该研究将人工智能技术应用于病毒鉴定,发现了传统方法未能发现的病毒“暗物质”,探索了病毒学研究的新路径。据介绍,传统的病毒发现方法包括病毒分离和生命组学的生物信息学分析,高度依赖既有知识,面对 RNA 病毒这种高度分化、种类繁多且容易变异

预测蛋白质共调控和功能,哈佛&MIT训练含19层transformer的基因组语言模型

编辑 | 萝卜皮破译基因及其基因组背景之间的关系,是理解和设计生物系统的基础。机器学习在从大量蛋白质序列数据集中学习序列-结构-功能范式背后的潜在关系方面表现出潜力。哈佛大学和麻省理工学院(MIT)的研究人员在数百万个宏基因组框架上训练基因组语言模型(gLM),从而分析基因之间潜在的功能和调控关系。gLM 能够学习「上下文」化的蛋白质嵌入,捕获基因组上下文以及蛋白质序列本身,并编码具有生物学意义和功能相关的信息(例如酶功能、分类学)。该研究以「Genomic language model predicts prot