该研究的资深作者、系统生物学教授劳尔・拉巴丹(Raul Rabadan)表示:“可预测且通用的计算模型使我们能够快速、准确地揭示生物过程。这些方法可以有效地进行大规模计算实验,推动并指导传统实验方法的发展。”
传统的生物学研究方法虽然擅长揭示细胞如何执行其功能或对外界干扰作出反应,但无法预测细胞的工作机制或对变化的反应,例如致癌突变的影响。拉巴丹指出:“能够准确预测细胞活动将彻底改变我们对基本生物过程的理解,使生物学从描述看似随机过程的科学转变为能够预测细胞行为背后系统的科学。”
近年来,随着细胞数据的海量积累和 AI 模型的日益强大,生物学正逐渐向预测性科学转变。2024 年诺贝尔化学奖就授予了利用 AI 预测蛋白质结构的开创性研究。然而,使用 AI 方法预测细胞内基因和蛋白质的活动仍然面临巨大挑战。
据AI在线了解,在这项新研究中,拉巴丹及其团队尝试利用 AI 预测特定细胞中哪些基因处于活跃状态。基因表达信息可以帮助研究人员确定细胞的身份及其功能执行方式。拉巴丹实验室的研究生傅曦(Xi Fu,音译)决定采用一种不同的方法,利用从正常人体组织中获取的数百万个细胞的基因表达数据训练机器学习模型。模型的输入包括基因组序列以及显示基因组哪些部分可访问和表达的数据。
这一方法的整体思路类似于 ChatGPT 等流行的“基础”模型。这些系统通过训练数据识别底层规则(如语言的语法),然后将这些规则应用于新场景。拉巴丹解释道:“我们的方法完全一致:我们从多种细胞状态中学习‘语法’,然后将其应用于特定条件 —— 无论是病变细胞还是正常细胞 —— 并尝试预测其行为模式。”
傅曦和拉巴丹随后与多位合作者共同训练和测试了这一新模型,其中包括共同第一作者亚历杭德罗・布恩迪亚(Alejandro Buendia)和卡内基梅隆大学的申通莫(Shentong Mo,音译)。在超过 130 万个人类细胞数据上训练后,该系统能够准确预测从未见过的细胞类型的基因表达,其结果与实验数据高度吻合。
接下来,研究团队展示了其 AI 系统在揭示病变细胞隐藏生物学机制方面的强大能力。他们以一种遗传性儿童白血病为例,利用 AI 预测了突变基因如何破坏两种不同转录因子之间的相互作用,从而决定白血病细胞的命运。实验室实验证实了 AI 的预测。了解这些突变的影响可以揭示驱动这种疾病的特定机制。
此外,这一新型计算方法还为研究人员探索基因组“暗物质”的作用提供了可能。基因组“暗物质”是指基因组中不包含已知蛋白质编码基因的绝大部分区域。拉巴丹指出:“癌症患者中发现的大多数突变都位于基因组的‘暗区域’,这些突变不影响蛋白质功能,因此一直未被充分研究。通过使用这些模型,我们可以观察突变并揭示基因组这一部分的功能。”
目前,拉巴丹正与哥伦比亚大学及其他机构的研究人员合作,探索从脑癌到血癌等多种癌症,研究正常细胞中的调控“语法”以及细胞在癌症发展过程中的变化。
这项研究不仅为理解癌症以外的多种疾病开辟了新途径,还可能为新疗法的靶点识别提供支持。通过向计算机模型输入新发现的突变,研究人员可以深入了解这些突变如何影响细胞。
拉巴丹认为,这项研究是生物学领域人工智能应用重大趋势的一部分:“这是一个非常激动人心的生物学新时代,它将生物学转变为一种预测性科学。”