70 亿参数训练,从DNA、RNA、蛋白质到全基因组,生物学通用大模型新标杆

编辑 | 萝卜皮基因组是完整编码 DNA、RNA 和蛋白质的序列,这些序列协调整个生物体的性能。机器进修的进步与全基因组的海量数据集相结合,可以实现生物根本模型,加速复杂份子相互作用的机械理解和生成设计。斯坦福大学(Stanford University)和 Arc Institute 的钻研职员开发了 Evo,这是一种基因组根本模型,可进行多模态和多尺度进修,能完成从份子到基因组范围的展望和生成任务。使用基于深度信号处理进步的架构,该团队将 Evo 扩展到 70 亿参数,单核苷酸字节分辨率的上下文长度为 131

70 亿参数训练,从DNA、RNA、蛋白质到全基因组,生物学通用大模型新标杆

编辑 | 萝卜皮

基因组是完整编码 DNA、RNA 和蛋白质的序列,这些序列协调整个生物体的性能。机器进修的进步与全基因组的海量数据集相结合,可以实现生物根本模型,加速复杂份子相互作用的机械理解和生成设计。

斯坦福大学(Stanford University)和 Arc Institute 的钻研职员开发了 Evo,这是一种基因组根本模型,可进行多模态和多尺度进修,能完成从份子到基因组范围的展望和生成任务。

使用基于深度信号处理进步的架构,该团队将 Evo 扩展到 70 亿参数,单核苷酸字节分辨率的上下文长度为 131 KB。经过整个原核基因组的训练,Evo 可以概括份子生物学中心法则的三种基本模态,从而可以执行零样本性能展望。

Evo 还擅长多元素生成任务,该团队用 Evo 首次生成合成了 CRISPR-Cas 份子复合物和整个转座零碎。利用从整个基因组中学到的信息,Evo 还可以在核苷酸分辨率下展望基因的必要性,并可以生成长度高达 650 kb 的富含编码的序列。

该团队于 2024 年 2 月 27 日发布了钻研「Sequence modeling and design from molecular to genome scale with Evo」的预印本。

70 亿参数训练,从DNA、RNA、蛋白质到全基因组,生物学通用大模型新标杆

ML和测序技术有望揭开生命零碎的面纱

DNA 是生物信息的根本,负责将进化的结果传递给生命的世世代代。基因组序列的进化变异反映了表型水平上生物性能的适应和选择。DNA 测序技术的快速进步,使得在全基因组范围上零碎地绘制这种进化多样性成为可能。

科学家一直希望开发一台能够进修跨基因组的广泛信息的机器,用于模拟 DNA、RNA 和蛋白质的性能,以及它们协调复杂生物性能、介导疾病或创建完整有机体的多种相互作用。现代机器进修算法与大量基因组序列数据集相结合,可以实现进修整个基因组内在逻辑的通用生物学根本模型。

然而,目前利用机器进修对份子生物学进行建模的钻研主要集中在创建专门针对蛋白质、调控 DNA 或 RNA 的模态特定模型;并且,当前生物学中的生成应用,仅限于单份子、简单复合物或短 DNA 序列的设计。

相比之下,复杂的生物过程,例如基因调控、CRISPR 免疫或基因转座,依赖于涉及跨多种模态份子的各种相互作用。

统一份子、零碎和基因组多模态的模型

统一份子、零碎和基因组范围信息的 DNA 模型可以从大型基因组区域进修,捕获零碎范围内的相互作用,并能够设计更复杂的生物性能。

受到大型说话模型的启发,许多方法利用自回归 Transformer 来建模生物序列并捕获这些零碎范围的交互。然而,现有的将 DNA 建模为说话的尝试受到普遍的密集 Transformer 架构的限制,随着输入序列长度相对于模型宽度(二次缩放)增长,该架构会产生很高的计算成本,并且通常在单核苷酸或字节级分辨率下表现不佳(即便与以较粗分辨率训练的模型相比)。

基于 Transformer 的 DNA 模型受限于较短的上下文长度,并使用将核苷酸聚合成说话模型基本单元(称为 token)的方案,从而牺牲了单核苷酸分辨率。

一个 70 亿参数的基因组根本模型

斯坦福大学和 Arc Institute 等多家机构的钻研职员合作开发了 Evo,一个 70 亿参数的基因组根本模型,经过训练可以生成全基因组范围的 DNA 序列。

70 亿参数训练,从DNA、RNA、蛋白质到全基因组,生物学通用大模型新标杆

图示:基于 StripedHyena 的 Evo 模型架构。(来源:论文)

Evo 使用 131k 个 token 的上下文长度,基于 StripedHyena 架构,该架构混合了注意力和数据控制的卷积算子,以有效地处理和回忆长序列中的模态。Evo 在由 3000 亿个核苷酸组成的原核全基因组数据集上进行训练,并使用字节级单核苷酸分词器。

钻研职员对多个架构的 DNA 预训练进行了首次缩放定律分析,他们观察到 StripedHyena 在每个范围级别上都优于多个基线架构,包括 Transformer 架构。

Evo 可用于份子、零碎和基因组范围的展望和生成任务

在零样本评估中,Evo 在展望突变对大肠杆菌蛋白质的适应性影响方面,与当前 SOTA 蛋白质说话模型具有竞争力。

70 亿参数训练,从DNA、RNA、蛋白质到全基因组,生物学通用大模型新标杆

图示:根据 Evo 生成的单个序列展望蛋白质结构。(来源:Arc 官网)

在展望突变对非编码 RNA 的适应性影响方面优于专门的 RNA 说话模型,并能够展望原核启动子-核糖体结合位点对的组合,这些组合导致仅通过调节序列即可激活基因表达。

70 亿参数训练,从DNA、RNA、蛋白质到全基因组,生物学通用大模型新标杆

图示;Evo 模拟了生物学的中心法则。(来源:Arc 官网)

Evo 超越了单份子和短序列,进修了编码和非编码序列的共同进化联系,以便设计合成的多组分生物零碎,包括 CRISPR-Cas 零碎和转座元件。

70 亿参数训练,从DNA、RNA、蛋白质到全基因组,生物学通用大模型新标杆

图示:CRISPR-Cas 份子复合物的生成设计。(来源:Arc 官网)

在全基因组范围上,Evo 可以在没有任何监督的情况下展望细菌或噬菌体中的必需基因。钻研职员还使用 Evo 生成超过 650 KB 的序列,并具有合理的基因组编码架构,其范围比以前的方法大几个数量级。

影响与局限

能够进行基因组范围设计的模型,对于推进治疗发现、可持续性和人类对根本生物学的理解具有巨大潜力。同时,这些技术也加剧了生物安全和伦理学方面的争议,还需要科学家一起去探讨。

虽然 Evo 模型具有卓越的性能,但仍然存在许多技术限制和挑战。钻研职员在 300B 原核生物 token 数据集上对 Evo 进行了预训练,该数据集仅代表公开可用的基因组数据的 PB 级的一小部分。由于该模型仅基于原核数据进行训练,因此它展望突变对人类蛋白质适应性的性能影响的能力是有限的。

自然说话模型通常很难在长序列上保持连贯和多样化的生成,而 Evo 可以表现出类似的特性。在基因组范围上,Evo 生成了数百个碱基,展示了对基因组组织的高水平理解,但难以包含关键 token 基因。这些限制反映了自然说话模型的限制,随着时间的推移,随着范围的扩大、 token 数据、即时工程以及与人类偏好的一致,自然说话模型得到了改进。钻研职员认为 DNA 模型也会出现类似的情况。

展望

这种范围和分辨率的 DNA 建模为许多钻研方向奠定了根本。钻研职员认为 Evo 将受益于更大的范围、更长的上下文长度和更多样化的预训练数据。鉴于说话模型引导的蛋白质定向进化的成功,基因组说话模型也可能有助于指导多基因生物零碎的定向进化。同样,这些模型中包含的共同进化信息可以改善多基因背景下的份子结构展望。

随着这些模型的改进,零碎生物学的操作可能会出现,例如组合基因相互作用的适应性效应或性能操纵子连接的展望。通过更好的调节或即时工程,Evo 可以通过在关系或语义水平上进行宏基因组挖掘,而不是从现有生物体中提取文字序列,从而形成下一代序列搜索算法的根本。

除了原核生物之外,将真核生物基因组纳入 Evo 还需要考虑这些基因组的复杂性要高得多,并且需要在工程、计算和安全相关模型比对方面投入大量资源。结合大范围基因组修饰的进展,Evo 有助于将生物工程和设计的范围扩展到整个基因组的范围。

文章的通讯作者之一 Patrick D. Hsu 说:「未来,我们将把 Evo 扩展到真核和人类序列。我对该模型帮助或取代湿实验室实验的潜力感到非常兴奋。许多小组对必需基因进行了费力的 CRISPR 筛选——我们用神经网络的前向传递来代替它。」

源代码:https://github.com/evo-design/evo

论文链接:https://arcinstitute.org/manuscripts/Evo

相关报道:https://arcinstitute.org/news/blog/evohttps://twitter.com/pdhsu/status/1762512557565456825

给TA打赏
共{{data.count}}人
人已打赏
理论

AlphaFold 猜测细菌生计所需的 1402 种蛋白互作,最完整的细菌必须相互作用图谱

2024-2-28 11:57:00

理论

5天完成6个月尝试量,减速催化研讨,「主动驾驭」催化尝试室Fast-Cat登Nature子刊

2024-3-1 11:08:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索