编辑 | 萝卜皮
基因组是完整编码 DNA、RNA 和蛋白质的序列,这些序列协调整个生物体的功能。机器学习的进步与全基因组的海量数据集相结合,可以实现生物基础模型,加速复杂分子相互作用的机械理解和生成设计。
斯坦福大学(Stanford University)和 Arc Institute 的研究人员开发了 Evo,这是一种基因组基础模型,可进行多模态和多尺度学习,能完成从分子到基因组规模的预测和生成任务。
使用基于深度信号处理进步的架构,该团队将 Evo 扩展到 70 亿参数,单核苷酸字节分辨率的上下文长度为 131 KB。经过整个原核基因组的训练,Evo 可以概括分子生物学中心法则的三种基本模态,从而可以执行零样本功能预测。
Evo 还擅长多元素生成任务,该团队用 Evo 首次生成合成了 CRISPR-Cas 分子复合物和整个转座系统。利用从整个基因组中学到的信息,Evo 还可以在核苷酸分辨率下预测基因的必要性,并可以生成长度高达 650 kb 的富含编码的序列。
该团队于 2024 年 2 月 27 日发布了研究「Sequence modeling and design from molecular to genome scale with Evo」的预印本。
ML和测序技术有望揭开生命系统的面纱
DNA 是生物信息的基础,负责将进化的结果传递给生命的世世代代。基因组序列的进化变异反映了表型水平上生物功能的适应和选择。DNA 测序技术的快速进步,使得在全基因组规模上系统地绘制这种进化多样性成为可能。
科学家一直希望开发一台能够学习跨基因组的广泛信息的机器,用于模拟 DNA、RNA 和蛋白质的功能,以及它们协调复杂生物功能、介导疾病或创建完整有机体的多种相互作用。现代机器学习算法与大量基因组序列数据集相结合,可以实现学习整个基因组内在逻辑的通用生物学基础模型。
然而,目前利用机器学习对分子生物学进行建模的研究主要集中在创建专门针对蛋白质、调控 DNA 或 RNA 的模态特定模型;并且,当前生物学中的生成应用,仅限于单分子、简单复合物或短 DNA 序列的设计。
相比之下,复杂的生物过程,例如基因调控、CRISPR 免疫或基因转座,依赖于涉及跨多种模态分子的各种相互作用。
统一分子、系统和基因组多模态的模型
统一分子、系统和基因组规模信息的 DNA 模型可以从大型基因组区域学习,捕获系统范围内的相互作用,并能够设计更复杂的生物功能。
受到大型语言模型的启发,许多方法利用自回归 Transformer 来建模生物序列并捕获这些系统范围的交互。然而,现有的将 DNA 建模为语言的尝试受到普遍的密集 Transformer 架构的限制,随着输入序列长度相对于模型宽度(二次缩放)增长,该架构会产生很高的计算成本,并且通常在单核苷酸或字节级分辨率下表现不佳(即便与以较粗分辨率训练的模型相比)。
基于 Transformer 的 DNA 模型受限于较短的上下文长度,并使用将核苷酸聚合成语言模型基本单元(称为 token)的方案,从而牺牲了单核苷酸分辨率。
一个 70 亿参数的基因组基础模型
斯坦福大学和 Arc Institute 等多家机构的研究人员合作开发了 Evo,一个 70 亿参数的基因组基础模型,经过训练可以生成全基因组规模的 DNA 序列。
图示:基于 StripedHyena 的 Evo 模型架构。(来源:论文)
Evo 使用 131k 个 token 的上下文长度,基于 StripedHyena 架构,该架构混合了注意力和数据控制的卷积算子,以有效地处理和回忆长序列中的模态。Evo 在由 3000 亿个核苷酸组成的原核全基因组数据集上进行训练,并使用字节级单核苷酸分词器。
研究人员对多个架构的 DNA 预训练进行了首次缩放定律分析,他们观察到 StripedHyena 在每个规模级别上都优于多个基线架构,包括 Transformer 架构。
Evo 可用于分子、系统和基因组规模的预测和生成任务
在零样本评估中,Evo 在预测突变对大肠杆菌蛋白质的适应性影响方面,与当前 SOTA 蛋白质语言模型具有竞争力。
图示:根据 Evo 生成的单个序列预测蛋白质结构。(来源:Arc 官网)
在预测突变对非编码 RNA 的适应性影响方面优于专门的 RNA 语言模型,并能够预测原核启动子-核糖体结合位点对的组合,这些组合导致仅通过调节序列即可激活基因表达。
图示;Evo 模拟了生物学的中心法则。(来源:Arc 官网)
Evo 超越了单分子和短序列,学习了编码和非编码序列的共同进化联系,以便设计合成的多组分生物系统,包括 CRISPR-Cas 系统和转座元件。
图示:CRISPR-Cas 分子复合物的生成设计。(来源:Arc 官网)
在全基因组规模上,Evo 可以在没有任何监督的情况下预测细菌或噬菌体中的必需基因。研究人员还使用 Evo 生成超过 650 KB 的序列,并具有合理的基因组编码架构,其规模比以前的方法大几个数量级。
影响与局限
能够进行基因组规模设计的模型,对于推进治疗发现、可持续性和人类对基础生物学的理解具有巨大潜力。同时,这些技术也加剧了生物安全和伦理学方面的争议,还需要科学家一起去探讨。
虽然 Evo 模型具有卓越的功能,但仍然存在许多技术限制和挑战。研究人员在 300B 原核生物 token 数据集上对 Evo 进行了预训练,该数据集仅代表公开可用的基因组数据的 PB 级的一小部分。由于该模型仅基于原核数据进行训练,因此它预测突变对人类蛋白质适应性的功能影响的能力是有限的。
自然语言模型通常很难在长序列上保持连贯和多样化的生成,而 Evo 可以表现出类似的特性。在基因组规模上,Evo 生成了数百个碱基,展示了对基因组组织的高水平理解,但难以包含关键 token 基因。这些限制反映了自然语言模型的限制,随着时间的推移,随着规模的扩大、 token 数据、即时工程以及与人类偏好的一致,自然语言模型得到了改进。研究人员认为 DNA 模型也会出现类似的情况。
展望
这种规模和分辨率的 DNA 建模为许多研究方向奠定了基础。研究人员认为 Evo 将受益于更大的规模、更长的上下文长度和更多样化的预训练数据。鉴于语言模型引导的蛋白质定向进化的成功,基因组语言模型也可能有助于指导多基因生物系统的定向进化。同样,这些模型中包含的共同进化信息可以改善多基因背景下的分子结构预测。
随着这些模型的改进,系统生物学的操作可能会出现,例如组合基因相互作用的适应性效应或功能操纵子连接的预测。通过更好的调节或即时工程,Evo 可以通过在关系或语义水平上进行宏基因组挖掘,而不是从现有生物体中提取文字序列,从而形成下一代序列搜索算法的基础。
除了原核生物之外,将真核生物基因组纳入 Evo 还需要考虑这些基因组的复杂性要高得多,并且需要在工程、计算和安全相关模型比对方面投入大量资源。结合大规模基因组修饰的进展,Evo 有助于将生物工程和设计的范围扩展到整个基因组的规模。
文章的通讯作者之一 Patrick D. Hsu 说:「未来,我们将把 Evo 扩展到真核和人类序列。我对该模型帮助或取代湿实验室实验的潜力感到非常兴奋。许多小组对必需基因进行了费力的 CRISPR 筛选——我们用神经网络的前向传递来代替它。」
源代码:https://github.com/evo-design/evo
论文链接:https://arcinstitute.org/manuscripts/Evo
相关报道:https://arcinstitute.org/news/blog/evohttps://twitter.com/pdhsu/status/1762512557565456825