【新智元导读】刚刚,分子生物学界引爆核弹级消息:人类的 DNA,已经能由 AI 重新改写了!初创公司 Profluent 宣布开源了世界首个 AI 设计基因编写器,成功编写了人类细胞中的 DNA。这可太科幻了,如果有机会,你会选择「改造」自己的 DNA 吗?
AI,能够重写人类基因组了?
就在刚刚,初创公司 Profluent 宣布,完全由 AI 设计的基因编写器,已经成功编写了人类细胞中的 DNA。
也就是说,世界上首个应用 AI 从头设计的分子级精确基因编写器诞生了。
就像 ChatGPT 能生成诗歌一样,Profluent 这个全新的 AI 体系,可以让我们编写自己 DNA 的微观机制生成蓝图。
在迄今最广泛的基于 CRISPR 的基因编写体系数据集上,研究者训练了 LLM。这些 LLM 产生的卵白质,将几乎所有人造存在的 CRISPR-Cas 家属的多样性,扩大了 4.8 倍!
并且,基因编写器在人类细胞中显示出了与 SpCas9(一个示例基因编写器)相当或更好的活性和特异性,同时距离超过 400 个突变。
这也就意味着,我们掌握了自己的基因组密码。未来的科学家,会比今天更精确、更快速地对抗疾病。而且,公司还决定,会在 OpenCRISPR 协议下,自由释放这些 DNA 分子。
▲ OpenCRISPR-1 的物理结构,OpenCRISPR-1 即是由 Profluent 的 AI 手艺创建的基因编写器
Profluent 联创 Ali Madani 表示,「尝试用 AI 设计的生物体系,编写人类 DNA 是一次科学登月之旅」。
「我们的成功表明,在未来,AI 可精准设计出一系列定制的疾病治疗方案」。
有网友表示,「是时候重新编程人类了吗?AI 驱动的 CRISPR 手艺进步,正挑战着基因伦理的边界」。
如果你可以改变自己的 DNA,你会这么做吗?
贫血、失明疾病的基因,由我们自己修改
初创公司 Profluent 在刚刚发表的这篇论文中,详细描述了这项手艺。
论文地址:https://www.biorxiv.org/content/10.1101/2024.04.22.590591v1.full.pdf
论文预计将于下月,在美国基因与细胞治疗学会年会上发表。
这项手艺和驱动 ChatGPT 的方法是一样的,它在分析大量生物数据后,创造了新的基因编写器,包括科学家已经用于编写人类 DNA 的微观机制。
这些基因编写器基于的是诺奖的获奖方法,涉及一种名叫 CRISPR 的生物机制。
基于 CRISPR 的手艺诞生后,即在业界引起轰动。它改变了科学家研究疾病的方式。
在以前,如果我们不幸得了镰状细胞性贫血和失明这样的遗传性疾病,往往束手无策,而现在,CRISPR 手艺可以直接让我们修改导致这些疾病的基因了!
CRISPR 方法应用的是我们在自然界中发现的机制:从细菌中收集的生物材料,竟然神奇地赋予了这些微生物抵抗细菌的能力。
加州大学旧金山分校生物工程和治疗科学系教授兼系主任 James Fraser 介绍说,这些生物材料从未在地球上存在过,而 Profluent 的 AI 体系,正是从大自然中学习如何创造这些全新的东西。
如果这些手艺继续发展,所产生的基因编写器,或许会比我们人类经过数十亿年进化磨练的基因编写器更灵活、更强大。
现在,Profluent 表示正在开源 OpenCRISPR-1 编写器,这也就意味着,个人、学术实验室和公司都能免费应用这些手艺。
AI 界常见的开源,可以加速新手艺的产生。不过,对于生物实验室和制药公司来说,像 OpenCRISPR-1 这样的开源并不常见。
当然,Profluent 也只是开源了其 AI 手艺生成的基因编写器,并没有开源 AI 手艺本身。
▲ 由 OpenCRISPR-1 编写的人类细胞延时摄影
AI 编写卵白质,为何意义重大
目前,卵白质工程界想要复制功能性卵白质,或者用「定向进化」来迭代修饰,通常还是需要从自然界中复制。
许多对人类有重大意义的卵白质,都是我们偶然发现的,比如狗的胰岛素、酸奶设施中的 Cas9 和经常造成食物中毒的肉毒杆菌毒素。
大型生成卵白质语言模型的作用,就是可以捕获使人造卵白质发挥作用的基本蓝图。它们勾勒出一条捷径,可以绕过进化的随机过程,推动人类有意识地为特定目的设计卵白质。
Cas9 卵白,是 CRISPR-Cas9 基因编写体系的核心组成部分,它是一种 RNA 引导的核酸酶,可以搜索人类基因组中的所有 30 亿个核苷酸,并在一个特定位点进行切割。
这种核酸酶与单导 RNA(sgRNA)复合在一起,sgRNA 由一个在结构上与卵白质相互作用的支架和一个间隔序列组成,后者可通过编程靶向基因组中的任何位点。
棘手的是,大多数 Cas9 卵白的长度超过 1000 个氨基酸,整个设计空间包含 20^1000 种可能的序列,比起可观测宇宙中的原子数量,它都要高出几个数量级!
而且,由于这些卵白质必须以精确的顺序协调许多相互作用,才能实现精确切割,因此即使是单个错位突变,也可能完全消除卵白质的功能。
如果通过实验穷尽所有可能的序列变异,许多科学家几辈子时间都做不完。然而,AI 体系却能很轻松地探索整个搜索空间,发现功能性的基因编写器。而且,只需要花几个小时!
全球首个开源基因编写器,改写人类 DNA
基因编写器 OpenCRISPR-1,由一个 Cas9 样卵白质,和引导 RNA(guide RNA)构成。
正如之前所述,它是完全由 Profluent 的 AI 大模型开发的。
在具体实现过程中,研究人员对 26TB 组装的「基因组」和「元基因组」数据库体系进行挖掘,整理出超 100 万个 CRISPR 操纵子(operon)的数据集。
通过训练 OpenCRISPR,AI 从大规模序列和生物背景中学习,生成了自然界不存在的数百万种 CRISPR 样卵白。
研究人员称,AI 生成了自然界中已发现的「CRISPR-Cas 家属」的 4.8 倍的卵白质集群,完全实现了指数级扩展!
而且,语言模型还为类 Cas9 效应卵白定制了单引导 RNA 序列。
与原型基因编写效应器 SpCas9 相比,几个生成的基因编写器显示出,可比或改进的活性和特异性,同时在序列上相差 400 个突变。
最后,研究人员还证明了 AI 生成的基因编写 OpenCRISPR-1 与碱基编写的兼容性。
这项研究中的关键结果,具体如下。
AI 生成 4.8 倍「CRISPR-Cas」卵白质宇宙
生成卵白质语言模型通常是在,大型涵盖多种体系发育和功能的人造卵白序列的数据集上,进行预训练 。
这些模型能够生成,反映人造卵白质分布和特性的真实卵白质序列。
然而,对于特定的应用,例如新型基因编写器的生成,有必要将生成过程导向特定的感兴趣的卵白家属子集。
对此,研究人员进行了详尽的数据挖掘来构建数据库。
他们搜索了 26.2TB 的组装微生物基因组和宏基因组,发现了 1,246,163 个 CRISPR-Cas 操纵子。
与 CRISPRCasDB 和 CasPDB 等精选数据库,以及世界上最大的卵白质资源 UniProt 相比,最新创建的数据库显示出更大的多样性。
通过总结共性,研究人员发现了所有 CRISPR-Cas 卵白的单一模型,能够生成跨家属的不同序列。
为了生成新型 CRISPR-Cas 卵白,作者在 CRISPR-Cas Atlas 上微调了基于 ProGen2 的语言模型,由此平衡了卵白家属的表示和序列簇大小。
从这个模型中,研究者生成了 400 万个序列。其中一半是直接从模型生成的,另一半是由人造卵白质 N 或 C 末端的最多 50 个残基提示,以引导向特定卵白的生成。
为了评估其新颖性和多样性,作者应用 MMseqs2 对每个家属的生成序列和人造序列按 70% 的同一性进行了聚类。
结果发现,与 CRISPR-Cas 图谱中的人造卵白相比,生成序列实现了 4.8 倍的多样性扩展。
对于人造卵白质很少的家属,比如 Cas13 和 Cas12a,生成序列的多样性分别增加了 8.4 倍和 6.2 倍。
另外,只需要极少的上下文,即提供 50 个或更少的残基,就能针对某一特定科引导序列生成与感兴趣的科保持一致。
100 万个类 Cas9 卵白全部生成
虽然许多 CRISPR-Cas 卵白已被用于基因组编写 ,但 Cas9 仍是应用最广泛的一种。
为了生成类 Cas9 的新序列,研究人员从 CRISPR-Cas 图谱中采样,Cas9 的 N 端或 C 端 50 个残基,对 CRISPR-Cas 模型进行了提示。
这里,作者应用了 CRISPR-Cas Atlas 中 238917 条 Cas9 序列,对另一个语言模型进行了微调。
这一模型生成可行的类 Cas9 序列的速度是 CRISPR-Cas 模型的 2 倍(54.2%),而且需要任何提示。
为了探索 II 型效应器的潜在序列分布,研究人员应用 Cas9 模型生成了 100 万个 Cas9 卵白。
生成的可存活代(n=542,042)与同一性为 40% 的人造 Cas9 聚类在一起,并用作构建最大似然体系发育树的输入(图 2a)。
引人注目的是,生成的卵白质主导了体系发育的格局,占体系发育总多样性的 94.1%。
与整个 CRISPR-Cas 图谱相比,多样性增加了 10.3 倍(图 2b)。
新的体系发生群分布在整个树中,这表明该模型捕捉到了 Cas9 的全部多样性,并没有过度拟合任何特定系。
生成的序列与 CRISPR-Cas 图谱的差异很大,与任何自然序列的平均同一性只有 56.8%(图 2c)。
总体而言,生成的序列与同一卵白质簇中人造卵白质的长度密切匹配,皮尔逊相关性为 0.97(图 2d)。
此外,图 2e 显示了,人造 Cas9、祖先序列重建和 48 个生成卵白的靶上和脱靶的编写效率。图 2f 展示了自然 Cas9、祖先序列重建,以及生成卵白在靶向编写效率和特异性方面的对比。
生成的基因编写器,在人类细胞中发挥作用
然后,研究者进一步将关注范围缩小到 CRISPR-Cas9 体系,并在 CRISPR-Cas 图谱中的 238,917 个 Cas9 卵白上,训练了卵白质语言模型。
应用这些模型,研究者生成了可与 SpCas9 互操作的 Cas9 样卵白。也就是说,它们与基因组的相同部分(PAM)结合,并与相同的 sgRNA 相容,因此,它们可用于相同的应用。
研究者选择了其中 48 个生成的序列,用于在人类细胞中进行严格的功能表征。
最热门的 OpenCRISPR-1,在靶向位点的活性与 SpCas9 相当(OpenCRISPR-1 的编写率为 55.7%,SpCas9 的编写率为 48.3%),但令人惊讶的是,在脱靶位点的编写减少了 95%(OpenCRISPR-1 的编写率为 0.32%,SpCas9 为 6.1%)。
此外,作为一种非常新的卵白质,OpenCRISPR-1 与 SpCas9 相距 403 个突变,与 CRISPR-Cas 图谱中的任何人造卵白质相距 182 个突变。
▲ 多种生成的核酸酶(绿色),包括 OpenCRISPR-1(深绿色),具有与 SpCas9(蓝色)相当或更高的靶向活性,但脱靶活性要低得多
研究者们还发现,当与脱氨酶配对时,OpenCRISPR-1 和 SpCas9 在精确编写靶基因组中的单个碱基时,具有相似的活性和特异性。
他们还能保持碱基编写活性,同时通过用由另一种 Profluent 训练的卵白质语言模型生成的脱氨酶,来提高特异性。
▲ 应用 ABE8.20(一种高活性工程脱氨酶)以及生成的脱氨酶 PF-DEAM-1 和 PF-DEAM-2 进行碱基编写时,OpenCRISPR-1 的功能与 SpCas9 非常相似
最后,为了进一步优化所生成的核酸酶的活性,研究者还训练了一个模型来为任何给定的 Cas9 样卵白生成相容的 sgRNA。
与 SpCas9 的 sgRNA 相比,这些生成的 sgRNA 可以提高所测试的五种卵白质中四种产生的核酸酶的活性。
▲ 对于测试的 5 种生成的核酸酶中的 4 种,应用模型生成的 sgRNA 提高了编写效率
AI,正在改善医疗保健
现在,全世界都有很多项目,在用 AI 手艺改善医疗保健。
比如,华盛顿大学的科学家们正在用 ChatGPT 和 Midjourney 背后的方法来,创造全新的卵白质,并且正在努力加速新疫苗和药物的开发。
如今大火的许多生成式 AI,背后都是由神经网络驱动的。通过分析大量数据,神经网络就习得了某些技能。
比如,Midjourney 以神经网络为基础,分析了数百万张数字图像,以及描述每张图像的标题。这样,体系就学会了识别图像和文字之间的联系,可以画出「犀牛从金门大桥上跳下来」这样的画。
Profluent 的手艺,也是由一个类似的 AI 模型驱动的。
这个模型从氨基酸和核酸序列中学习,正是这些化合物,定义了科学家用来编写基因的微观生物学机制。
本质而言,它就是分析了从自然界中提取的 CRISPR 基因编写器的行为,学习了如何生成全新的基因编写器。
Profluent 的 CEO Ali Madani 介绍道,这些 AI 模型都是从序列中学习的,无论是字符、单词、计算机代码,还是氨基酸的序列。
Madani 先生在加州伯克利 Profluent 实验室内,此前他曾在软件巨头 Salesforce 的人工智能实验室工作
人类编写基因,还会有多远
目前,Profluent 尚未对这些合成基因编写器进行临床试验,因此尚不清楚它们是否能与 CRISPR 的性能相媲美,甚至超过 CRISPR。
但他们的研究表明了,AI 模型可以产生能够编写人类基因组的东西。
尽管如此,这项成果还不太可能在短期内影响医疗保健。
UC 伯克利创新基因组学研究所的基因编写先驱兼科学主任费 Fyodor Urnov 表示,科学家们并不缺乏人造存在的基因编写器,用来对抗疾病。
真正的瓶颈在于,这项编写器在用于临床治疗之前,还会因安全性、制造、监管审查产生极高的成本。
但是,随着学习越来越多的数据,生成式 AI 体系的潜力不可小觑。
如果 Profluent 的手艺继续改进,终有一天,科学家们可以用更精确的方式编写基因。到那时,我们可能身处这样一个世界 —— 许多药物和治疗方法,都能快速为个人量身定制。这是今天的人们所不敢想的。
「我梦想着这样一个世界,我们可以在几周内按需提供 CRISPR,」 Urnov 博士说。
还有一个重大的问题就是,CRIPSR 有风险吗?
长期以来,科学家们一直在警告:不要应用 CRISPR 进行人类增强!因为,这是一项相对较新的手艺,很可能会产生不良的副作用,比如引发癌症。而且还有些人会用于非道德的用途,比如转基因人类胚胎。
合成基因编写器,也面临着这项问题。而如今,科学家们已经掌握了编写胚胎所需的一切手艺。
但 Fraser 博士表示,如果真的有人想用它们做坏事,也只会应用现有的东西,而非 AI 创建的编写器。
参考资料:
https://www.profluent.bio/blog/editing-the-human-genome-with-ai
https://www.nytimes.com/2024/04/22/technology/generative-ai-gene-editing-crispr.html
本文来自微信公众号:新智元 (ID:AI_era)