哥伦比亚大学研究人员开发新型 AI 模型,可精准预测人体细胞基因表达

哥伦比亚大学瓦格洛斯医学院的研究团队开发了一种新型人工智能(AI)模型 ——“通用表达转换器”(GET),能够准确预测任何人类细胞中的基因活性,从而揭示细胞的内部机制。这一研究成果发表在最新一期的《自然》杂志上,有望彻底改变科学家研究癌症、遗传疾病等的方式。
感谢哥伦比亚大学瓦格洛斯医学院的研究团队开发了一种新型人工智能(AI)模型 ——“通用表达转换器”(GET),能够准确预测任何人类细胞中的基因活性,从而揭示细胞的内部机制。这一研究成果发表在最新一期的《自然》杂志上,有望彻底改变科学家研究癌症、遗传疾病等的方式。

哥伦比亚大学研究人员开发新型 AI 模型,可精准预测人体细胞基因表达

该研究的资深作者、系统生物学教授劳尔・拉巴丹(Raul Rabadan)表示:“可预测且通用的计算模型使我们能够快速、准确地揭示生物过程。这些方法可以有效地进行大规模计算实验,推动并指导传统实验方法的发展。”

传统的生物学研究方法虽然擅长揭示细胞如何执行其功能或对外界干扰作出反应,但无法预测细胞的工作机制或对变化的反应,例如致癌突变的影响。拉巴丹指出:“能够准确预测细胞活动将彻底改变我们对基本生物过程的理解,使生物学从描述看似随机过程的科学转变为能够预测细胞行为背后系统的科学。”

近年来,随着细胞数据的海量积累和 AI 模型的日益强大,生物学正逐渐向预测性科学转变。2024 年诺贝尔化学奖就授予了利用 AI 预测蛋白质结构的开创性研究。然而,使用 AI 方法预测细胞内基因和蛋白质的活动仍然面临巨大挑战。

据AI在线了解,在这项新研究中,拉巴丹及其团队尝试利用 AI 预测特定细胞中哪些基因处于活跃状态。基因表达信息可以帮助研究人员确定细胞的身份及其功能执行方式。拉巴丹实验室的研究生傅曦(Xi Fu,音译)决定采用一种不同的方法,利用从正常人体组织中获取的数百万个细胞的基因表达数据训练机器学习模型。模型的输入包括基因组序列以及显示基因组哪些部分可访问和表达的数据。

这一方法的整体思路类似于 ChatGPT 等流行的“基础”模型。这些系统通过训练数据识别底层规则(如语言的语法),然后将这些规则应用于新场景。拉巴丹解释道:“我们的方法完全一致:我们从多种细胞状态中学习‘语法’,然后将其应用于特定条件 —— 无论是病变细胞还是正常细胞 —— 并尝试预测其行为模式。”

傅曦和拉巴丹随后与多位合作者共同训练和测试了这一新模型,其中包括共同第一作者亚历杭德罗・布恩迪亚(Alejandro Buendia)和卡内基梅隆大学的申通莫(Shentong Mo,音译)。在超过 130 万个人类细胞数据上训练后,该系统能够准确预测从未见过的细胞类型的基因表达,其结果与实验数据高度吻合。

接下来,研究团队展示了其 AI 系统在揭示病变细胞隐藏生物学机制方面的强大能力。他们以一种遗传性儿童白血病为例,利用 AI 预测了突变基因如何破坏两种不同转录因子之间的相互作用,从而决定白血病细胞的命运。实验室实验证实了 AI 的预测。了解这些突变的影响可以揭示驱动这种疾病的特定机制。

此外,这一新型计算方法还为研究人员探索基因组“暗物质”的作用提供了可能。基因组“暗物质”是指基因组中不包含已知蛋白质编码基因的绝大部分区域。拉巴丹指出:“癌症患者中发现的大多数突变都位于基因组的‘暗区域’,这些突变不影响蛋白质功能,因此一直未被充分研究。通过使用这些模型,我们可以观察突变并揭示基因组这一部分的功能。”

目前,拉巴丹正与哥伦比亚大学及其他机构的研究人员合作,探索从脑癌到血癌等多种癌症,研究正常细胞中的调控“语法”以及细胞在癌症发展过程中的变化。

这项研究不仅为理解癌症以外的多种疾病开辟了新途径,还可能为新疗法的靶点识别提供支持。通过向计算机模型输入新发现的突变,研究人员可以深入了解这些突变如何影响细胞。

拉巴丹认为,这项研究是生物学领域人工智能应用重大趋势的一部分:“这是一个非常激动人心的生物学新时代,它将生物学转变为一种预测性科学。”

相关资讯

山东大学团队提出基于异构图 Transformer 的单细胞生物网络推理

编辑 | 绿萝单细胞多组学 (scMulti-omics) 技术允许同时量化多种模态,以捕捉复杂分子机制和细胞异质性的复杂性。现有工具无法有效地推断出不同细胞类型中 active 生物网络以及这些网络对外部刺激的反应。在此,来自山东大学参与的多机构研究团队,开发了基于深度学习的单细胞数据多组学分析平台:DeepMAPS,用于从 scMulti-omics 进行生物网络推理。DeepMAPS 在异构图中对 scMulti-omics 进行建模,并使用多头图(multi-head graph)Transformer 以

首个单细胞生物学基础大型语言模型,在超1000万个细胞进行预训练

编辑 | 紫罗生成式预训练模型在自然语言处理(NLP)和计算机视觉等领域取得了显著的成功。文本是由文字组成的,细胞可以用基因来表征。NLP 和单细胞生物学之间的另一个核心相似之处是,用于训练的公开可用的单细胞 RNA 测序(scRNA-seq)数据的规模庞大且不断增长。NLP 模型是否也能理解单细胞生物学的内在逻辑并发展「涌现思维」?近日,来自加拿大多伦多大学和彼得·蒙克心脏中心(Peter Munk Cardiac Centre)的研究人员,通过利用呈指数增长的单细胞测序数据,首次尝试对超过 1000 万个细胞进

中国科学院团队两篇齐发:首个跨物种生命基础大模型+新型细胞命运预测AI模型发布

作者 | 中国科学院多学科交叉研究团队编辑 | ScienceAI被称为20世纪人类三大科学计划之一的人类基因组计划,拉开了深度解析生命奥秘的序幕。由于生命过程具有多维度、高度动态的特点,传统实验研究手段难以系统精准地破解基因密码的底层共性规律,亟需运用强大的计算技术来实现基因数据的表征建模与知识发现。当前,以大模型为核心的人工智能技术在计算机视觉和自然语言理解等领域引发了革命,展示出了对数据和知识的深入理解的能力,有望应用到生命科学研究领域,系统精准地破解基因密码的底层共性规律。近日,由中国科学院多学科交叉研究团