AI 成功改写人类 DNA:全球首个基因编写器开源,近 5 倍卵白质宇宙 LLM 全生成

【新智元导读】刚刚,分子生物学界引爆核弹级消息:人类的 DNA,已经能由 AI 重新改写了!初创公司 Profluent 宣布开源了世界首个 AI 设计基因编写器,成功编写了人类细胞中的 DNA。这可太科幻了,如果有机会,你会选择「改造」自己的 DNA 吗?AI,能够重写人类基因组了?就在刚刚,初创公司 Profluent 宣布,完全由 AI 设计的基因编写器,已经成功编写了人类细胞中的 DNA。也就是说,世界上首个应用 AI 从头设计的分子级精确基因编写器诞生了。就像 ChatGPT 能生成诗歌一样,Proflu

【新智元导读】刚刚,分子生物学界引爆核弹级消息:人类的 DNA,已经能由 AI 重新改写了!初创公司 Profluent 宣布开源了世界首个 AI 设计基因编写器,成功编写了人类细胞中的 DNA。这可太科幻了,如果有机会,你会选择「改造」自己的 DNA 吗?

AI,能够重写人类基因组了?

就在刚刚,初创公司 Profluent 宣布,完全由 AI 设计的基因编写器,已经成功编写了人类细胞中的 DNA。

也就是说,世界上首个应用 AI 从头设计的分子级精确基因编写器诞生了。

AI 成功改写人类 DNA:全球首个基因编写器开源,近 5 倍卵白质宇宙 LLM 全生成

就像 ChatGPT 能生成诗歌一样,Profluent 这个全新的 AI 体系,可以让我们编写自己 DNA 的微观机制生成蓝图。

在迄今最广泛的基于 CRISPR 的基因编写体系数据集上,研究者训练了 LLM。这些 LLM 产生的卵白质,将几乎所有人造存在的 CRISPR-Cas 家属的多样性,扩大了 4.8 倍!

并且,基因编写器在人类细胞中显示出了与 SpCas9(一个示例基因编写器)相当或更好的活性和特异性,同时距离超过 400 个突变。

这也就意味着,我们掌握了自己的基因组密码。未来的科学家,会比今天更精确、更快速地对抗疾病。而且,公司还决定,会在 OpenCRISPR 协议下,自由释放这些 DNA 分子。

AI 成功改写人类 DNA:全球首个基因编写器开源,近 5 倍卵白质宇宙 LLM 全生成

▲ OpenCRISPR-1 的物理结构,OpenCRISPR-1 即是由 Profluent 的 AI 手艺创建的基因编写器

Profluent 联创 Ali Madani 表示,「尝试用 AI 设计的生物体系,编写人类 DNA 是一次科学登月之旅」。

「我们的成功表明,在未来,AI 可精准设计出一系列定制的疾病治疗方案」。

有网友表示,「是时候重新编程人类了吗?AI 驱动的 CRISPR 手艺进步,正挑战着基因伦理的边界」。

AI 成功改写人类 DNA:全球首个基因编写器开源,近 5 倍卵白质宇宙 LLM 全生成

如果你可以改变自己的 DNA,你会这么做吗?

AI 成功改写人类 DNA:全球首个基因编写器开源,近 5 倍卵白质宇宙 LLM 全生成

贫血、失明疾病的基因,由我们自己修改

初创公司 Profluent 在刚刚发表的这篇论文中,详细描述了这项手艺。

AI 成功改写人类 DNA:全球首个基因编写器开源,近 5 倍卵白质宇宙 LLM 全生成

论文地址:https://www.biorxiv.org/content/10.1101/2024.04.22.590591v1.full.pdf

论文预计将于下月,在美国基因与细胞治疗学会年会上发表。

这项手艺和驱动 ChatGPT 的方法是一样的,它在分析大量生物数据后,创造了新的基因编写器,包括科学家已经用于编写人类 DNA 的微观机制。

这些基因编写器基于的是诺奖的获奖方法,涉及一种名叫 CRISPR 的生物机制。

AI 成功改写人类 DNA:全球首个基因编写器开源,近 5 倍卵白质宇宙 LLM 全生成

基于 CRISPR 的手艺诞生后,即在业界引起轰动。它改变了科学家研究疾病的方式。

在以前,如果我们不幸得了镰状细胞性贫血和失明这样的遗传性疾病,往往束手无策,而现在,CRISPR 手艺可以直接让我们修改导致这些疾病的基因了!

AI 成功改写人类 DNA:全球首个基因编写器开源,近 5 倍卵白质宇宙 LLM 全生成

CRISPR 方法应用的是我们在自然界中发现的机制:从细菌中收集的生物材料,竟然神奇地赋予了这些微生物抵抗细菌的能力。

加州大学旧金山分校生物工程和治疗科学系教授兼系主任 James Fraser 介绍说,这些生物材料从未在地球上存在过,而 Profluent 的 AI 体系,正是从大自然中学习如何创造这些全新的东西。

如果这些手艺继续发展,所产生的基因编写器,或许会比我们人类经过数十亿年进化磨练的基因编写器更灵活、更强大。

现在,Profluent 表示正在开源 OpenCRISPR-1 编写器,这也就意味着,个人、学术实验室和公司都能免费应用这些手艺。

AI 界常见的开源,可以加速新手艺的产生。不过,对于生物实验室和制药公司来说,像 OpenCRISPR-1 这样的开源并不常见。

当然,Profluent 也只是开源了其 AI 手艺生成的基因编写器,并没有开源 AI 手艺本身。

AI 成功改写人类 DNA:全球首个基因编写器开源,近 5 倍卵白质宇宙 LLM 全生成

▲ 由 OpenCRISPR-1 编写的人类细胞延时摄影

AI 编写卵白质,为何意义重大

目前,卵白质工程界想要复制功能性卵白质,或者用「定向进化」来迭代修饰,通常还是需要从自然界中复制。

许多对人类有重大意义的卵白质,都是我们偶然发现的,比如狗的胰岛素、酸奶设施中的 Cas9 和经常造成食物中毒的肉毒杆菌毒素。

大型生成卵白质语言模型的作用,就是可以捕获使人造卵白质发挥作用的基本蓝图。它们勾勒出一条捷径,可以绕过进化的随机过程,推动人类有意识地为特定目的设计卵白质。

Cas9 卵白,是 CRISPR-Cas9 基因编写体系的核心组成部分,它是一种 RNA 引导的核酸酶,可以搜索人类基因组中的所有 30 亿个核苷酸,并在一个特定位点进行切割。

AI 成功改写人类 DNA:全球首个基因编写器开源,近 5 倍卵白质宇宙 LLM 全生成

这种核酸酶与单导 RNA(sgRNA)复合在一起,sgRNA 由一个在结构上与卵白质相互作用的支架和一个间隔序列组成,后者可通过编程靶向基因组中的任何位点。

AI 成功改写人类 DNA:全球首个基因编写器开源,近 5 倍卵白质宇宙 LLM 全生成

棘手的是,大多数 Cas9 卵白的长度超过 1000 个氨基酸,整个设计空间包含 20^1000 种可能的序列,比起可观测宇宙中的原子数量,它都要高出几个数量级!

AI 成功改写人类 DNA:全球首个基因编写器开源,近 5 倍卵白质宇宙 LLM 全生成

而且,由于这些卵白质必须以精确的顺序协调许多相互作用,才能实现精确切割,因此即使是单个错位突变,也可能完全消除卵白质的功能。

如果通过实验穷尽所有可能的序列变异,许多科学家几辈子时间都做不完。然而,AI 体系却能很轻松地探索整个搜索空间,发现功能性的基因编写器。而且,只需要花几个小时!

全球首个开源基因编写器,改写人类 DNA

基因编写器 OpenCRISPR-1,由一个 Cas9 样卵白质,和引导 RNA(guide RNA)构成。

正如之前所述,它是完全由 Profluent 的 AI 大模型开发的。

在具体实现过程中,研究人员对 26TB 组装的「基因组」和「元基因组」数据库体系进行挖掘,整理出超 100 万个 CRISPR 操纵子(operon)的数据集。

通过训练 OpenCRISPR,AI 从大规模序列和生物背景中学习,生成了自然界不存在的数百万种 CRISPR 样卵白。

AI 成功改写人类 DNA:全球首个基因编写器开源,近 5 倍卵白质宇宙 LLM 全生成

研究人员称,AI 生成了自然界中已发现的「CRISPR-Cas 家属」的 4.8 倍的卵白质集群,完全实现了指数级扩展!

而且,语言模型还为类 Cas9 效应卵白定制了单引导 RNA 序列。

与原型基因编写效应器 SpCas9 相比,几个生成的基因编写器显示出,可比或改进的活性和特异性,同时在序列上相差 400 个突变。

最后,研究人员还证明了 AI 生成的基因编写 OpenCRISPR-1 与碱基编写的兼容性。

这项研究中的关键结果,具体如下。

AI 生成 4.8 倍「CRISPR-Cas」卵白质宇宙

生成卵白质语言模型通常是在,大型涵盖多种体系发育和功能的人造卵白序列的数据集上,进行预训练 。

这些模型能够生成,反映人造卵白质分布和特性的真实卵白质序列。

然而,对于特定的应用,例如新型基因编写器的生成,有必要将生成过程导向特定的感兴趣的卵白家属子集。

AI 成功改写人类 DNA:全球首个基因编写器开源,近 5 倍卵白质宇宙 LLM 全生成

对此,研究人员进行了详尽的数据挖掘来构建数据库。

他们搜索了 26.2TB 的组装微生物基因组和宏基因组,发现了 1,246,163 个 CRISPR-Cas 操纵子。

AI 成功改写人类 DNA:全球首个基因编写器开源,近 5 倍卵白质宇宙 LLM 全生成

与 CRISPRCasDB 和 CasPDB 等精选数据库,以及世界上最大的卵白质资源 UniProt 相比,最新创建的数据库显示出更大的多样性。

通过总结共性,研究人员发现了所有 CRISPR-Cas 卵白的单一模型,能够生成跨家属的不同序列。

为了生成新型 CRISPR-Cas 卵白,作者在 CRISPR-Cas Atlas 上微调了基于 ProGen2 的语言模型,由此平衡了卵白家属的表示和序列簇大小。

从这个模型中,研究者生成了 400 万个序列。其中一半是直接从模型生成的,另一半是由人造卵白质 N 或 C 末端的最多 50 个残基提示,以引导向特定卵白的生成。

为了评估其新颖性和多样性,作者应用 MMseqs2 对每个家属的生成序列和人造序列按 70% 的同一性进行了聚类。

结果发现,与 CRISPR-Cas 图谱中的人造卵白相比,生成序列实现了 4.8 倍的多样性扩展。

对于人造卵白质很少的家属,比如 Cas13 和 Cas12a,生成序列的多样性分别增加了 8.4 倍和 6.2 倍。

另外,只需要极少的上下文,即提供 50 个或更少的残基,就能针对某一特定科引导序列生成与感兴趣的科保持一致。

AI 成功改写人类 DNA:全球首个基因编写器开源,近 5 倍卵白质宇宙 LLM 全生成

100 万个类 Cas9 卵白全部生成

虽然许多 CRISPR-Cas 卵白已被用于基因组编写 ,但 Cas9 仍是应用最广泛的一种。

为了生成类 Cas9 的新序列,研究人员从 CRISPR-Cas 图谱中采样,Cas9 的 N 端或 C 端 50 个残基,对 CRISPR-Cas 模型进行了提示。

这里,作者应用了 CRISPR-Cas Atlas 中 238917 条 Cas9 序列,对另一个语言模型进行了微调。

这一模型生成可行的类 Cas9 序列的速度是 CRISPR-Cas 模型的 2 倍(54.2%),而且需要任何提示。

AI 成功改写人类 DNA:全球首个基因编写器开源,近 5 倍卵白质宇宙 LLM 全生成

为了探索 II 型效应器的潜在序列分布,研究人员应用 Cas9 模型生成了 100 万个 Cas9 卵白。

生成的可存活代(n=542,042)与同一性为 40% 的人造 Cas9 聚类在一起,并用作构建最大似然体系发育树的输入(图 2a)。

引人注目的是,生成的卵白质主导了体系发育的格局,占体系发育总多样性的 94.1%。

与整个 CRISPR-Cas 图谱相比,多样性增加了 10.3 倍(图 2b)。

新的体系发生群分布在整个树中,这表明该模型捕捉到了 Cas9 的全部多样性,并没有过度拟合任何特定系。

生成的序列与 CRISPR-Cas 图谱的差异很大,与任何自然序列的平均同一性只有 56.8%(图 2c)。

总体而言,生成的序列与同一卵白质簇中人造卵白质的长度密切匹配,皮尔逊相关性为 0.97(图 2d)。

此外,图 2e 显示了,人造 Cas9、祖先序列重建和 48 个生成卵白的靶上和脱靶的编写效率。图 2f 展示了自然 Cas9、祖先序列重建,以及生成卵白在靶向编写效率和特异性方面的对比。

AI 成功改写人类 DNA:全球首个基因编写器开源,近 5 倍卵白质宇宙 LLM 全生成

生成的基因编写器,在人类细胞中发挥作用

然后,研究者进一步将关注范围缩小到 CRISPR-Cas9 体系,并在 CRISPR-Cas 图谱中的 238,917 个 Cas9 卵白上,训练了卵白质语言模型。

应用这些模型,研究者生成了可与 SpCas9 互操作的 Cas9 样卵白。也就是说,它们与基因组的相同部分(PAM)结合,并与相同的 sgRNA 相容,因此,它们可用于相同的应用。

研究者选择了其中 48 个生成的序列,用于在人类细胞中进行严格的功能表征。

最热门的 OpenCRISPR-1,在靶向位点的活性与 SpCas9 相当(OpenCRISPR-1 的编写率为 55.7%,SpCas9 的编写率为 48.3%),但令人惊讶的是,在脱靶位点的编写减少了 95%(OpenCRISPR-1 的编写率为 0.32%,SpCas9 为 6.1%)。

此外,作为一种非常新的卵白质,OpenCRISPR-1 与 SpCas9 相距 403 个突变,与 CRISPR-Cas 图谱中的任何人造卵白质相距 182 个突变。

AI 成功改写人类 DNA:全球首个基因编写器开源,近 5 倍卵白质宇宙 LLM 全生成

▲ 多种生成的核酸酶(绿色),包括 OpenCRISPR-1(深绿色),具有与 SpCas9(蓝色)相当或更高的靶向活性,但脱靶活性要低得多

研究者们还发现,当与脱氨酶配对时,OpenCRISPR-1 和 SpCas9 在精确编写靶基因组中的单个碱基时,具有相似的活性和特异性。

他们还能保持碱基编写活性,同时通过用由另一种 Profluent 训练的卵白质语言模型生成的脱氨酶,来提高特异性。

AI 成功改写人类 DNA:全球首个基因编写器开源,近 5 倍卵白质宇宙 LLM 全生成

▲ 应用 ABE8.20(一种高活性工程脱氨酶)以及生成的脱氨酶 PF-DEAM-1 和 PF-DEAM-2 进行碱基编写时,OpenCRISPR-1 的功能与 SpCas9 非常相似

最后,为了进一步优化所生成的核酸酶的活性,研究者还训练了一个模型来为任何给定的 Cas9 样卵白生成相容的 sgRNA。

与 SpCas9 的 sgRNA 相比,这些生成的 sgRNA 可以提高所测试的五种卵白质中四种产生的核酸酶的活性。

AI 成功改写人类 DNA:全球首个基因编写器开源,近 5 倍卵白质宇宙 LLM 全生成

▲ 对于测试的 5 种生成的核酸酶中的 4 种,应用模型生成的 sgRNA 提高了编写效率

AI,正在改善医疗保健

现在,全世界都有很多项目,在用 AI 手艺改善医疗保健。

比如,华盛顿大学的科学家们正在用 ChatGPT 和 Midjourney 背后的方法来,创造全新的卵白质,并且正在努力加速新疫苗和药物的开发。

AI 成功改写人类 DNA:全球首个基因编写器开源,近 5 倍卵白质宇宙 LLM 全生成

如今大火的许多生成式 AI,背后都是由神经网络驱动的。通过分析大量数据,神经网络就习得了某些技能。

比如,Midjourney 以神经网络为基础,分析了数百万张数字图像,以及描述每张图像的标题。这样,体系就学会了识别图像和文字之间的联系,可以画出「犀牛从金门大桥上跳下来」这样的画。

AI 成功改写人类 DNA:全球首个基因编写器开源,近 5 倍卵白质宇宙 LLM 全生成

Profluent 的手艺,也是由一个类似的 AI 模型驱动的。

这个模型从氨基酸和核酸序列中学习,正是这些化合物,定义了科学家用来编写基因的微观生物学机制。

本质而言,它就是分析了从自然界中提取的 CRISPR 基因编写器的行为,学习了如何生成全新的基因编写器。

Profluent 的 CEO Ali Madani 介绍道,这些 AI 模型都是从序列中学习的,无论是字符、单词、计算机代码,还是氨基酸的序列。

AI 成功改写人类 DNA:全球首个基因编写器开源,近 5 倍卵白质宇宙 LLM 全生成

Madani 先生在加州伯克利 Profluent 实验室内,此前他曾在软件巨头 Salesforce 的人工智能实验室工作

人类编写基因,还会有多远

目前,Profluent 尚未对这些合成基因编写器进行临床试验,因此尚不清楚它们是否能与 CRISPR 的性能相媲美,甚至超过 CRISPR。

但他们的研究表明了,AI 模型可以产生能够编写人类基因组的东西。

尽管如此,这项成果还不太可能在短期内影响医疗保健。

AI 成功改写人类 DNA:全球首个基因编写器开源,近 5 倍卵白质宇宙 LLM 全生成

UC 伯克利创新基因组学研究所的基因编写先驱兼科学主任费 Fyodor Urnov 表示,科学家们并不缺乏人造存在的基因编写器,用来对抗疾病。

真正的瓶颈在于,这项编写器在用于临床治疗之前,还会因安全性、制造、监管审查产生极高的成本。

但是,随着学习越来越多的数据,生成式 AI 体系的潜力不可小觑。

如果 Profluent 的手艺继续改进,终有一天,科学家们可以用更精确的方式编写基因。到那时,我们可能身处这样一个世界 —— 许多药物和治疗方法,都能快速为个人量身定制。这是今天的人们所不敢想的。

「我梦想着这样一个世界,我们可以在几周内按需提供 CRISPR,」 Urnov 博士说。

AI 成功改写人类 DNA:全球首个基因编写器开源,近 5 倍卵白质宇宙 LLM 全生成

还有一个重大的问题就是,CRIPSR 有风险吗?

长期以来,科学家们一直在警告:不要应用 CRISPR 进行人类增强!因为,这是一项相对较新的手艺,很可能会产生不良的副作用,比如引发癌症。而且还有些人会用于非道德的用途,比如转基因人类胚胎。

合成基因编写器,也面临着这项问题。而如今,科学家们已经掌握了编写胚胎所需的一切手艺。

但 Fraser 博士表示,如果真的有人想用它们做坏事,也只会应用现有的东西,而非 AI 创建的编写器。

参考资料:

https://www.profluent.bio/blog/editing-the-human-genome-with-ai

https://www.nytimes.com/2024/04/22/technology/generative-ai-gene-editing-crispr.html

本文来自微信公众号:新智元 (ID:AI_era)

给TA打赏
共{{data.count}}人
人已打赏
AI

十二年穿越周期,“AIGC第一股”外出问问今日挂牌上市

2024-4-24 11:18:00

AI

移动版谷歌 Gemini 将迎诸多新特性:分解 PDF 文献内容等

2024-4-24 14:20:15

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索