登Nature,AI设计DNA开关,MIT团队实现精确的细胞控制

编辑 | 萝卜皮近年来,基因编辑技术以及各种基因治疗方法使科学家能够改变活细胞内的基因。 然而,只影响特定细胞类型或组织中的基因,而不是影响整个生物体的基因,一直很困难。 部分原因是人们对控制基因表达和抑制的 DNA 开关 [即顺式调控元件 (CRE)] 的理解仍面临挑战。

图片

编辑 | 萝卜皮

近年来,基因编辑技术以及各种基因治疗方法使科学家能够改变活细胞内的基因。然而,只影响特定细胞类型或组织中的基因,而不是影响整个生物体的基因,一直很困难。部分原因是人们对控制基因表达和抑制的 DNA 开关 [即顺式调控元件 (CRE)] 的理解仍面临挑战。

杰克逊实验室(JAX,The Jackson Laboratory)、麻省理工学院(MIT)和哈佛大学布罗德研究所以及耶鲁大学的研究人员利用人工智能设计了数千个新的 DNA 开关,可以精确控制基因在不同细胞类型中的表达。他们的新方法开启了控制基因在体内何时何地表达的可能性,以前所未有的方式造福人类健康和医学研究。

「这些合成设计的元素的特别之处在于,它们对其设计的目标细胞类型表现出了显著的特异性。」杰克逊实验室副教授兼论文共同通讯作者 Ryan Tewhey 博士说,「这为我们创造了机会,让我们可以在不影响身体其他部位的情况下,仅在一种组织中提高或降低基因的表达。」

该研究以「Machine-guided design of cell-type-targeting cis-regulatory elements」为题,于 2024 年 10 月 23 日发布在《Nature》。

图片

论文链接:https://www.nature.com/articles/s41586-024-08070-z

顺式调控元件 (CRE) 控制基因表达,协调组织身份、发育时间和刺激反应,这些共同决定了体内数千种独特的细胞类型。虽然在需要组织特异性的治疗或生物技术应用中战略性地整合 CRE 具有巨大潜力,但不能保证自然产生出适合这些预期目的的最佳 CRE。

科学家们知道,人类基因组中有数千种不同的 CRE,每种都发挥着略有不同的作用。但 CRE 的语法一直很难弄清楚,「没有简单的规则来控制每个 CRE 的作用。」JAX Tewhey 实验室的计算科学家,论文的第一作者之一 Rodrigo Castro 博士解释说,「这限制了我们设计仅影响人体某些细胞类型的基因疗法的能力。」

「如果我们从语言的角度来思考,这些元素的语法和句法就很难理解。因此,我们尝试构建机器学习方法,以便学习比我们自己能学习的更复杂的代码。」

人工智能来设计 CRE

Castro 所在的联合研究团队创建了 Malinois,这是一个深度卷积神经网络 (CNN),用于预测任何序列的细胞类型相关信息 CRE 活性(通过 MPRA 测量)。

图片

图示:Malinois 能够准确预测染色体外报告基因中 CRE 的转录激活。(来源:论文)

在此基础上,研究团队提出了一种从头设计新型合成 CRE 的方法 CODA,该 CRE 能够在三种转化细胞系中驱动细胞类型特异性转基因表达。

「该项目本质上提出了一个问题:『我们能否学会读取和编写这些调控元件的代码?』」耶鲁大学遗传学助理教授、该研究的通讯作者之一 Steven Reilly 博士说。

图片

图示:CODA 有效地设计了特定于细胞类型的 CRE。(来源:论文)

研究人员通过整合之前在跨细胞类型建模调控语法、高效序列空间搜索和可并行验证数千个 CRE 的 MPRA 实验系统方面的创新来实现这一目标。

研究人员使用了最近生成的统一处理的 MPRA 实验数据库,该数据库表征了前所未有的数量的 CRE,以训练精确的深度学习模型,该模型可以快速预测任何序列的活动。

「天然的 CRE 虽然数量众多,但只代表了可能的遗传元素的一小部分,而且它们的功能受到自然选择的限制。」该研究的共同第一作者、Sabeti 实验室的博士后研究员 Sager Gosai 博士说,「这些人工智能工具在设计基因开关方面具有巨大潜力,可以精确调整基因表达,以实现生物制造和治疗等超出进化压力范围的新应用。」

三种细胞系中测试

结合序列生成算法,研究人员部署他们的模型在三种细胞系中生成具有程序特异性的数千种合成 CRE,并使用 MPRA 在体外对其进行功能验证,并通过探测小鼠和斑马鱼的生理相关组织在体内对其进行功能验证。

在转化细胞系中检测的报告系统中,CODA 设计的合成序列在驱动细胞类型特异性基因表达方面确实优于天然序列。研究人员表明,CODA 可以识别出通常表现优于天然序列的合成序列,其效率远高于随机搜索,但无法确定全局最优值。

CODA 设计的合成 CRE 通过以独特的组合部署靶向激活和脱靶抑制 TF 来实现更高的特异性,而这种组合在人类基因组中并不常见。这说明该模型已经学习了控制 CRE 的基本规则的一部分,并且能够将这些知识推广到很少观察到的 TF 组合。

使用 Malinois(CRE 转录输出的直接模型),该团队能够识别具有中等细胞类型特异性活性的基因组序列,尽管程度低于合成序列。

图片

图示:解释功能序列内容。(来源:论文)

需要注意的是,在该研究的转化细胞系中,在识别基因组中能够进行细胞类型特异性报告基因表达的序列方面,Malinois 比传统的 CRE 活性标记(如 DNase 和 H3K27ac)更熟练。这强调了在生成用于训练高性能模型的库时,需要仔细考虑通常研究的候选 CRE 之外的序列。

体内评估

该团队在体外建模、生成和测试特定于单个转化细胞系的序列方面的高成功率,促使他们决定将评估这种活性如何扩展到体内复杂组织。尽管存在组织类型不完全保守、异时性和谱系特异性调控语法的潜在挑战,但他们的 CRE 在斑马鱼和小鼠中表现出保守的组织水平跨物种活性。

图片

图示:合成元素的体内验证。(来源:论文)

这些发现表明,体外开发的具有新功能的 CRE 可以在体内类似组织中保持特异性。研究人员通过单一转化的 SK-N-SH 细胞系设计的神经元 synN1 CRE 在小鼠中表现出高度特异性的皮层下表达。

「合成的 CRE 在语义上与天然元素相差甚远,因此对其有效性的预测似乎难以置信。」Gosai 说道,「我们最初预计许多序列会在活细胞内出现异常。」

但事实是「CODA 在设计这些元素方面表现得如此出色,这让我们感到非常惊喜。」Castro 说。

局限性与展望

接下来,需要进一步研究以制定最佳策略,将体外模型转化为体内精确靶向。将人类细胞系与全生物实验模型相结合的综合框架可能是快速识别能够在人类中实现新功能的 CRE 的有效方法。

转基因应用(例如需要组织、细胞类型或患病细胞状态特异性的基因疗法)可能会受益于具有可编程功能的合成 CRE 的设计和验证。在具有更高临床相关性的其他细胞类型中对 MPRA 模型进行训练可以使 CODA 更好地设计具有针对治疗应用量身定制的特异性的 CRE。

随着序列到功能模型的基础技术不断发展,研究人员认为合成元件设计将变得更加可靠,并减少体外和体内验证的实验负担。

该团队表示,该平台的设计可灵活适应任何目标函数。通过在未来将替代实验平台和模型与 CODA 相结合,研究者可以探索合成 CRE 的广阔前景,以实现进化可能未优化的目标,包括药物反应性(例如对糖皮质激素的反应性)、微调表达输出或响应癌细胞特有的复杂语法。

Tewhey 表示:「这项技术为编写具有预定义功能的新调控元件铺平了道路。此类工具不仅对基础研究很有价值,而且可能具有重要的生物医学意义,你可以使用这些元件来控制特定细胞类型中的基因表达,以达到治疗目的。」

相关内容:https://phys.org/news/2024-10-ai-dna-flip-genes-precise.html

相关资讯

DeepMind蛋白质设计新工具AlphaProteo,从头设计高亲和力蛋白结合剂,成功率最高88%

编辑 | ScienceAI像 AlphaFold 这样的蛋白质结构预测工具,已经帮助我们深入了解了蛋白质如何相互作用从而发挥其功能,但这些工具无法创建新的蛋白质来直接控制这些相互作用。现在,Google DeepMind 团队推出了一种用于设计「与目标分子结合更紧密」的新型蛋白质的 AI 系统 AlphaProteo。在测试的 7 种靶蛋白上,AlphaProteo 的实验成功率更高,在湿实验室中测试中,9% 到 88% 候选分子成功结合,这比其他方法高出 5 到 100 倍。而且,比现有最佳方法的结合亲和力高出

AI蛋白大模型推动生物产业变革,分子之心完成A轮融资

编辑 | ScienceAI在生物经济智能化升级的浪潮中,业界领先的AI蛋白质设计平台公司分子之心宣布于近期完成 A 轮融资。本轮融资额达数亿元人民币,由谢诺投资、深创投联合领投,商汤国香资本、久奕投资跟投。作为具有行业标杆地位的 AI 生物大分子设计平台公司,分子之心本轮融资将进一步提速 AI 生物基础设施建设。分子之心创始人、国际知名计算生物学家许锦波表示,本轮融资将用于进一步扩大顶级复合型人才团队,深入完善AI蛋白质基础大模型、AI 蛋白质优化设计平台 MoleculeOS 等生物经济共性技术平台,加速AI蛋

普林斯顿王梦迪团队提出蛋白水印方法,助力AI蛋白生成的版权保护与安全

编辑 | 萝卜皮近年来,随着生成式人工智能的发展,蛋白质结构预测和设计的能力显著提高。 然而,蛋白质生成模型在版权保护和生成有害内容(例如生物安全)方面面临着诸多问题。 生物大模型的构建和训练十分昂贵,有着保护模型版权和生成结果的现实需要;同时,需要有技术可靠地追踪和验证生成蛋白质结构,消除潜在的生物安全隐患。