预测所有物种DNA、RNA、蛋白质的形式和功能,Arc、斯坦福、NVIDIA发布最大AI生物模型Evo2

编辑 | 萝卜皮所有生命都用 DNA 编码信息。 虽然测序、合成和编辑基因组代码的工具已经改变了生物学研究,但智能地编写新的生物系统还需要深入了解基因组编码的巨大复杂性。 科学家们今天发布了他们所称的有史以来最大的生物学人工智能(AI)模型——Evo-2。

DNA、RNA、蛋白质数据的可视化

编辑 | 萝卜皮

所有生命都用 DNA 编码信息。虽然测序、合成和编辑基因组代码的工具已经改变了生物学研究,但智能地编写新的生物系统还需要深入了解基因组编码的巨大复杂性。

科学家们今天发布了他们所称的有史以来最大的生物学人工智能(AI)模型——Evo-2。

该模型基于 128,000 个基因组进行训练,涵盖了从人类到单细胞细菌和古细菌的生命之树,可以从头开始编写整个染色体和小基因组。它还可以理解现有的 DNA,包括与疾病相关的难以解释的「非编码」基因变体。

Evo-2 由加利福尼亚州帕洛阿尔托的 Arc 研究所和斯坦福大学的研究人员以及芯片制造商 NVIDIA 共同开发,科学家可以通过线上界面使用,也可以免费下载其软件代码、数据和复制模型所需的其他参数。

项目链接:https://github.com/ArcInstitute/evo2

开发人员将 Evo-2 视为一个平台,其他科研人员可以根据自己的用途进行调整。

「我们非常期待科学家和工程师如何为生物学打造这个『应用商店』,」Arc 研究所和加州大学伯克利分校的生物工程师 Patrick Hsu 在宣布 Evo-2 发布的新闻发布会上表示。

该模型在 Arc 研究所网站上发布的一篇论文中进行了描述,并提交给了 bioRxiv 预印本服务器。但他们表示,在得出确切结论之前,他们需要多进行一些测试。

「我们必须在预印本发布后看看它在独立基准测试中的表现如何。」斯坦福大学帕洛阿尔托分校的计算基因组学家 Anshul Kundaje 说。

AWS 发推文称 Evo 2 使用 AWS 上的 Nvidia DGX Cloud 构建,现在是跨物种分析 DNA、RNA 和蛋白质的最大的公共 AI 模型。

图片

关于 Evo-2 模型

在过去的几年里,研究人员开发出了越来越强大的「蛋白质语言模型」,例如由 Meta 前员工开发的 ESM-3 模型,该模型经过数百万个蛋白质序列的训练后,已用于帮助预测蛋白质结构和设计全新的蛋白质,包括基因编辑器和荧光分子。

与这些模型不同的是,Evo-2 的训练所用基因组数据既包含「编码序列」(携带制造蛋白质的指令),也包含非编码 DNA,后者包括可以控制基因何时、何地和如何活跃的序列。

2024 年发布的 Evo 的第一个版本是在 80,000 种细菌和古细菌(称为原核生物的简单生物)的基因组以及它们的病毒和其他序列上进行训练的。

最新模型基于 128,000 个基因组,包括人类和其他动物、植物和其他真核生物的基因组。这些基因组总共包含 9.3 万亿个 DNA 碱基对。根据处理这些数据和其他特征所需的计算能力,Evo-2 是迄今为止发布的最大的生物 AI 模型,Hsu 说。

研究人员使用 7B 和 40B 参数训练 Evo 2,以获得前所未有的 100 万个具有单核苷酸分辨率的标记上下文窗口。

Evo 2 仅从 DNA 序列中学习,即可准确预测遗传变异的功能影响,而无需针对特定任务进行微调。通过应用机械可解释性分析,团队发现 Evo 2 可以自主学习广泛的生物学特征,包括外显子-内含子边界、转录因子结合位点、蛋白质结构元素和噬菌体基因组区域。

除了预测能力之外,Evo 2 还能在基因组规模上生成线粒体、原核生物和真核生物序列,其自然性和连贯性比以前的方法更高。通过推理时间搜索引导 Evo 2 可以实现可控的表观基因组结构生成,为此研究人员在论文里展示了生物学中第一个推理时间缩放结果。

图片

论文链接:https://arcinstitute.org/manuscripts/Evo2

图片

图示:Evo 2 的模型架构、训练程序、数据集和评估概述。(来源:论文)

在模型架构与训练方面,研究人员提出了卷积多混合架构,其设计基于两个简单的观察。首先,混合模型中的运算符可以根据 token 操作任务进行定制,例如上下文回忆、多 token 回忆和压缩,其中输入相关的卷积和注意力机制可提供互补的性能。

其次,在以前的替代架构难以超越 Transformers 的领域,共同设计卷积运算符和硬件感知算法可以提高效率。在 400 亿个参数规模下,我们的端到端训练速度比优化的 Transformers 快 1.2 到 2.9 倍,比上一代混合模型快 1.1 到 1.4 倍。

在 H100 GPU 和 4096 模型宽度上,建议的多混合 StripedHyena 2 架构中的各个运算符的吞吐量比线性注意和状态空间模型提高了两倍。多混合在字节标记数据的序列建模方面表现出色,正如 Evo 2 系列模型所证明的那样。

图片

论文链接:https://arcinstitute.org/manuscripts/Evo2-ML

图片

图示:线上操作界面。(来源:官网)

所有序列都能生成

与原核生物相比,真核生物的基因组往往更长、更复杂:基因由散布的编码区和非编码区片段组成,非编码的「调控 DNA」可能远离它们控制的基因。为了处理这种复杂性,Evo-2 的设计使其能够学习远至 100 万个碱基对的 DNA 序列中的模式。

为了证明其解读复杂基因组的能力,Hsu 团队使用 Evo-2 预测了之前研究过的与乳腺癌有关的基因 BRCA1 突变的影响。Hsu 说,在确定编码区的变化是否会导致疾病方面,它的表现几乎与最好的生物人工智能模型一样好。「它是非编码突变的最新技术。」未来,该模型可以帮助识别患者基因组中这些难以解释的变化。

研究人员还测试了该模型解读其他复杂基因组特征的能力——包括猛犸象基因组的特征。加州旧金山格拉德斯通研究所的计算生物学家 Christina Theodoris 说:「Evo-2 代表着学习 DNA 调控语法的重要一步。」

Kundaje 表示,Evo-2 似乎擅长寻找编码序列以及附近的非编码 DNA。但目前尚不清楚该模型是否已经了解调节基因活动的远距离非编码序列。

像 Evo-2 这样的基因组模型的一个吸引力在于,它们可以生成不仅与蛋白质相对应的新 DNA 序列,还可以生成与蛋白质协同作用的非编码序列。Hsu 团队利用 Evo-1 创建了新的 CRISPR 基因编辑器,其中包括一种 DNA 切割酶和将蛋白质引导至目标位点的 RNA 分子。这些在实验室实验中被证明是有效的。

他们还尝试设计细菌和病毒基因组,但这些基因组缺乏真正基因组的许多特征。「我们将其比作基因组的模糊图像,」斯坦福大学和 Arc 研究所的计算生物学家 Brian Hie 在简报会上说。

有了 Evo-2,这些图像就不那么模糊了。研究人员利用该模型创建了受生殖支原体(一种细菌,是第一个基因组完全合成的细胞生物)、人类线粒体和 330,000 个 DNA 字母长的酵母染色体启发的基因组。这些看起来比 Evo-1 产生的基因组更真实(在某些情况下缺乏合理的蛋白质),但「仍有改进空间」,Hie 说。如果没有进一步改进,他怀疑这些基因组如果放入细胞中是否会起作用。

图片

图示:Evo 2 的机械可解释性揭示了 DNA、RNA、蛋白质和生物体水平的特征。(来源:论文)

计算生物学家、纽约市非营利性基因组模型开发公司 Tatta Bio 的首席执行官 Yunha Wang 表示,由于 Evo-2 接受了来自整个生命之树的 DNA 训练,因此它可以熟练地应用从细菌和古细菌基因组中学到的知识来生成新的人类蛋白质。

研究人员希望通过实验室实验验证 Evo-2。例如,他们设计了改变折叠 DNA(称为染色质)可及性的序列(染色质会影响多细胞生物体细胞的身份),并正在与另一个实验室合作在小鼠胚胎干细胞中测试这些设计。

蛋白质语言模型和其他用于蛋白质设计的 AI 工具引发了一场生物设计革命。Hie 团队最终希望用 AI 模拟整个细胞,他们希望像 Evo-2 这样的基因组模型能够进一步推动这一进程。

「我们希望将该领域从蛋白质设计推向基因组设计。」Hie 表示。

预测所有物种DNA、RNA、蛋白质的形式和功能,Arc、斯坦福、NVIDIA发布最大AI生物模型Evo2

视频链接:https://mp.weixin.qq.com/s/o4ECM6F-dK2PUagS8kSYbg

相关报道:

https://news.stanford.edu/stories/2025/02/generative-ai-tool-marks-a-milestone-in-biology-and-accelerates-the-future-of-life-sciences

https://arcinstitute.org/news/blog/evo2

https://blogs.nvidia.com/blog/evo-2-biomolecular-ai/

https://www.nature.com/articles/d41586-025-00531-3

https://x.com/awscloud/status/1892244930292015336

相关资讯