优于人类专家,GPT-4 准确注释单细胞类型,成本低且稳健

编辑 | 萝卜皮GPT-4 是一种专为语音理解和生成而设计的大型语言模型。哥伦比亚大学梅尔曼公共卫生学院(Columbia University Mailman School of Public Health)的 Wenpin Hou 和杜克大学医学院(Duke University School of Medicine)的 Zhicheng Ji 证明,大语言模型 GPT-4 可以在单细胞 RNA 测序分析中使用标记基因信息准确注释细胞类型。「注释单个细胞的细胞类型的过程通常非常耗时,需要人类专家比较跨细胞簇的基

优于人类专家,GPT-4 准确注释单细胞类型,成本低且稳健

编辑 | 萝卜皮

GPT-4 是一种专为语音理解和生成而设计的大型语言模型。

哥伦比亚大学梅尔曼公共卫生学院(Columbia University Mailman School of Public Health)的 Wenpin Hou 和杜克大学医学院(Duke University School of Medicine)的 Zhicheng Ji 证明,大语言模型 GPT-4 可以在单细胞 RNA 测序分析中使用标记基因信息准确注释细胞类型。

「注释单个细胞的细胞类型的过程通常非常耗时,需要人类专家比较跨细胞簇的基因。」Wenpin Hou 博士说。

当对数百种组织和细胞类型进行评估时,GPT-4 生成的细胞类型注释与手动注释表现出很强的一致性。此功能可以大大减少细胞类型注释所需的人类专家工作量和专业知识。并且,研究人员还为 GPT-4 的自动细胞类型注释开发了 R 软件包 GPTCelltype。

该研究以「Assessing GPT-4 for cell type annotation in single-cell RNA-seq analysis」为题,于 2024 年 3 月 25 日发布在《Nature Methods》。

图片

细胞类型注释是单细胞 RNA 测序 (scRNA-seq) 分析的基本步骤。这个过程通常既费力又耗时,需要人类专家将每个细胞簇中高表达的基因与典型细胞类型标记基因进行比较。虽然自动化细胞类型注释方法已经开发出来,但手动注释仍然是主流方式。

生成式预训练 Transformer (GPT),包括 GPT-3.5 和 GPT-4,是专为语言理解和生成而设计的大型语言模型。最近的研究证明了它们在生物医学领域的有效性。

在这里,研究人员假设 GPT-4 可以准确地注释细胞类型,将注释过程从手动转变为半甚至全自动程序。GPT-4 具有成本效益,并且可以无缝集成到现有的单细胞分析流程(例如 Seurat)中,从而无需构建额外的流程并收集高质量的参考数据集。GPT-4 的大量训练数据可在各种组织和细胞类型中实现更广泛的应用,其聊天机器人性质允许用户驱动的注释细化。

图片

图示:GPT-4 细胞类型注释示例以及与其他方法的比较。(来源:论文)

该团队系统地评估了 GPT-4 在十个数据集中的细胞类型注释性能,涵盖五个物种和数百种组织和细胞类型,包括正常和癌症样本。

使用他们开发的软件工具 GPTCelltype 查询 GPT-4。对于竞争方法,研究人员评估了GPT-3.5(GPT-4的早期版本)以及 CellMarker2.0、SingleR 和 ScType,它们是自动细胞类型注释方法,提供适用于大量组织的参考。

GPT-4 或竞争方法的细胞类型注释根据其与原始研究提供的手动注释的一致性进行评估。使用数字分数来衡量一致性程度。

分析结果

研究人员首先探讨了可能影响 GPT-4 注释准确性的不同因素。当使用前十个差异基因时,以及当使用两侧 Wilcoxon 检验导出差异基因时,GPT-4 表现最佳。

GPT-4 在各种提示策略中表现出相似的准确性,包括基本提示策略、包含推理步骤的思维链启发的提示策略以及重复提示策略。在后续分析中,GPT-4 和 GPT-3.5 均使用基本提示策略,以 Wilcoxon 检验获得的前十个差异基因作为适用数据集的输入。

在大多数研究和组织中,GPT-4 的注释完全或部分匹配超过 75% 的细胞类型的手动注释,证明了其生成与专家可比较的细胞类型注释的能力。对于来自文献检索的标记基因,这种一致性特别高,在大多数组织中至少有 70% 的完全匹配率。即使通过差异分析鉴定的基因较低,但一致性仍然很高。不过,应谨慎解释 2021 年 9 月之前发布的数据集的结果,因为它们早于 GPT-4 的训练截止时间。

与其他细胞类型相比,GPT-4 对粒细胞等免疫细胞表现更好。它可以识别结肠癌和肺癌数据集中的恶性细胞,但无法识别 B 淋巴瘤,这可能是由于缺乏独特的基因集。恶性细胞的鉴定可以受益于其他方法,例如拷贝数变异。

在包含不超过 10 个细胞的小细胞群中,性能略有下降,这可能是由于可用信息有限。GPT-4注释在主要细胞类型(例如 T 细胞)中比在亚型(例如 CD4 记忆 T 细胞)中更频繁地完全匹配手动注释,而超过75%的亚型仍然实现完全或部分匹配。

图片

图示:评估结果。(来源:论文)

在某些细胞类型中,GPT-4 与手动注释之间的低一致性并不一定意味着 GPT-4 的注释不正确。例如,分类为基质细胞的细胞类型包括表达 I 型胶原基因的成纤维细胞和成骨细胞,以及表达 II 型胶原基因的软骨细胞。对于手动注释为基质细胞的细胞,GPT-4 会分配更高粒度的细胞类型注释,从而导致部分匹配和较低的一致性。

对于手动注释为基质细胞但被 GPT-4 识别为成纤维细胞或成骨细胞的细胞类型,I 型胶原蛋白基因的表达量明显高于 II 型胶原蛋白基因。这与在手动注释为软骨细胞、成纤维细胞和成骨细胞的细胞中观察到的模式一致,表明 GPT-4 为基质细胞提供了更准确的细胞类型注释。

根据平均一致性分数,GPT-4 大大优于其他方法。使用 GPTCelltype 作为接口,GPT-4 的速度也明显更快,部分原因是它利用了来自标准单细胞分析流程(例如 Seurat)的差异基因。鉴于这些管道的不可或缺的作用,研究人员认为差异基因可立即用于 GPT-4。

相比之下,SingleR 和 ScType 等其他方法需要额外的步骤来重新处理基因表达矩阵。与其他免费方法相比,GPT-4 使用在线门户网站需要支付 20 美元的月费。GPT-4 API 的成本与查询的细胞类型数量线性相关,并且本研究中所有查询的成本不超过 0.1 美元。

研究人员通过模拟数据集进一步评估了 GPT-4 在复杂真实数据场景中的稳健性。GPT-4 可以以 93% 的准确度区分纯细胞类型和混合细胞类型,以 99% 的准确度区分已知和未知细胞类型。当输入基因集包含较少基因或被噪声污染时,GPT-4的性能下降但仍然很高。

最后,该团队使用先前的模拟研究评估了 GPT-4 注释的再现性。GPT-4 在 85% 的情况下对相同的标记基因产生了相同的注释,表明具有很高的重现性。两个 GPT-4 版本的注释在大多数情况下显示出相同的一致性分数,Cohen’s κ 为 0.65,证明了显著的一致性。

「所有这些结果都证明了 GPT-4 在各种情况下的稳健性。」Hou 说。

结语

虽然 GPT-4 在细胞类型注释方面表现出色,超越了现有方法,但仍存在需要考虑的局限性。

首先,GPT-4训练语料库的未公开性质使得验证其注释基础具有挑战性,因此需要人工评估以确保注释质量和可靠性。

其次,人类参与模型的可选微调可能会由于主观性而影响再现性,并可能限制模型在大型数据集中的可扩展性。

第三,scRNA-seq数据中的高噪声水平和不可靠的差异基因可能会对GPT-4的注释产生不利影响。

最后,过度依赖 GPT-4 可能会引发人工智能幻觉。

研究人员建议在进行下游分析之前由人类专家验证 GPT-4 的细胞类型注释。

论文链接:https://www.nature.com/articles/s41592-024-02235-4

相关报道:https://phys.org/news/2024-03-gpt-cell-cells-outperforms-expert.html

相关资讯

新SOTA,仅几个标记基因即可自动标记,复旦大学开发空间转录组学语义注释贝叶斯框架

编辑 | 萝卜皮空间转录组学的出现,彻底改变了组织内基因表达的研究。然而,注释空间点的生物特性仍然是一个挑战。为了解决这个问题,复旦大学的研究人员引入了 Pianno,一个基于标记基因自动进行结构语义注释的贝叶斯框架。Pianno 在精确注释各种空间语义(从不同的解剖结构到复杂的肿瘤微环境)以及估计细胞类型分布(跨各种空间转录组学平台生成的数据)方面的卓越能力。研究人员使用 Pianno 结合聚类方法,揭示了人类新皮质深层 3 中区域和物种特异性的兴奋性神经元亚型,展示了人类新皮质的细胞进化过程。Pianno 作为

山东大学团队提出基于异构图 Transformer 的单细胞生物网络推理

编辑 | 绿萝单细胞多组学 (scMulti-omics) 技术允许同时量化多种模态,以捕捉复杂分子机制和细胞异质性的复杂性。现有工具无法有效地推断出不同细胞类型中 active 生物网络以及这些网络对外部刺激的反应。在此,来自山东大学参与的多机构研究团队,开发了基于深度学习的单细胞数据多组学分析平台:DeepMAPS,用于从 scMulti-omics 进行生物网络推理。DeepMAPS 在异构图中对 scMulti-omics 进行建模,并使用多头图(multi-head graph)Transformer 以

首个单细胞生物学基础大型语言模型,在超1000万个细胞进行预训练

编辑 | 紫罗生成式预训练模型在自然语言处理(NLP)和计算机视觉等领域取得了显著的成功。文本是由文字组成的,细胞可以用基因来表征。NLP 和单细胞生物学之间的另一个核心相似之处是,用于训练的公开可用的单细胞 RNA 测序(scRNA-seq)数据的规模庞大且不断增长。NLP 模型是否也能理解单细胞生物学的内在逻辑并发展「涌现思维」?近日,来自加拿大多伦多大学和彼得·蒙克心脏中心(Peter Munk Cardiac Centre)的研究人员,通过利用呈指数增长的单细胞测序数据,首次尝试对超过 1000 万个细胞进