编辑 | 萝卜皮
GPT-4 是一种专为语音理解和生成而设计的大型语言模型。
哥伦比亚大学梅尔曼公共卫生学院(Columbia University Mailman School of Public Health)的 Wenpin Hou 和杜克大学医学院(Duke University School of Medicine)的 Zhicheng Ji 证实,大语言模型 GPT-4 可以在单细胞 RNA 测序综合中应用标志基因信息准确解释细胞类别。
「解释单个细胞的细胞类别的过程通常非常耗时,需要人类大师比较跨细胞簇的基因。」Wenpin Hou 博士说。
当对数百种构造和细胞类别进行评价时,GPT-4 生成的细胞类别解释与手动解释表现出很强的一致性。此功能可以大大减少细胞类别解释所需的人类大师工作量和专业知识。并且,研讨职员还为 GPT-4 的自动细胞类别解释开发了 R 软件包 GPTCelltype。
该研讨以「Assessing GPT-4 for cell type annotation in single-cell RNA-seq analysis」为题,于 2024 年 3 月 25 日发布在《Nature Methods》。
细胞类别解释是单细胞 RNA 测序 (scRNA-seq) 综合的基本步骤。这个过程通常既费力又耗时,需要人类大师将每个细胞簇中高表白的基因与典型细胞类别标志基因进行比较。虽然自动化细胞类别解释格式已经开发出来,但手动解释仍然是主流方式。
生成式预训练 Transformer (GPT),包括 GPT-3.5 和 GPT-4,是专为语言理解和生成而设计的大型语言模型。最近的研讨证实了它们在生物医学领域的有效性。
在这里,研讨职员假设 GPT-4 可以准确地解释细胞类别,将解释过程从手动转变为半甚至全自动程序。GPT-4 具有成本效益,并且可以无缝集成到现有的单细胞综合流程(例如 Seurat)中,从而无需构建额外的流程并收集高质量的参考数据集。GPT-4 的大量训练数据可在各种构造和细胞类别中实现更广泛的应用,其聊天机器人性质允许用户驱动的解释细化。
图示:GPT-4 细胞类别解释示例以及与其他格式的比较。(来源:论文)
该团队系统地评价了 GPT-4 在十个数据集中的细胞类别解释性能,涵盖五个物种和数百种构造和细胞类别,包括正常和癌症样本。
应用他们开发的软件工具 GPTCelltype 查询 GPT-4。对于竞争格式,研讨职员评价了GPT-3.5(GPT-4的早期版本)以及 CellMarker2.0、SingleR 和 ScType,它们是自动细胞类别解释格式,提供适用于大量构造的参考。
GPT-4 或竞争格式的细胞类别解释根据其与原始研讨提供的手动解释的一致性进行评价。应用数字分数来衡量一致性程度。
综合结果
研讨职员首先探讨了可能影响 GPT-4 解释准确性的不同因素。当应用前十个差异基因时,以及当应用两侧 Wilcoxon 检验导出差异基因时,GPT-4 表现最佳。
GPT-4 在各种提醒战略中表现出相似的准确性,包括基本提醒战略、包含推理步骤的思维链启发的提醒战略以及重复提醒战略。在后续综合中,GPT-4 和 GPT-3.5 均应用基本提醒战略,以 Wilcoxon 检验获得的前十个差异基因作为适用数据集的输入。
在大多数研讨和构造中,GPT-4 的解释完全或部分婚配超过 75% 的细胞类别的手动解释,证实了其生成与大师可比较的细胞类别解释的能力。对于来自文献检索的标志基因,这种一致性特别高,在大多数构造中至少有 70% 的完全婚配率。即使通过差异综合鉴定的基因较低,但一致性仍然很高。不过,应谨慎解释 2021 年 9 月之前发布的数据集的结果,因为它们早于 GPT-4 的训练截止时间。
与其他细胞类别相比,GPT-4 对粒细胞等免疫细胞表现更好。它可以识别结肠癌和肺癌数据集中的恶性细胞,但无法识别 B 淋巴瘤,这可能是由于缺乏独特的基因集。恶性细胞的鉴定可以受益于其他格式,例如拷贝数变异。
在包含不超过 10 个细胞的小细胞群中,性能略有下降,这可能是由于可用信息有限。GPT-4解释在主要细胞类别(例如 T 细胞)中比在亚型(例如 CD4 记忆 T 细胞)中更频繁地完全婚配手动解释,而超过75%的亚型仍然实现完全或部分婚配。
图示:评价结果。(来源:论文)
在某些细胞类别中,GPT-4 与手动解释之间的低一致性并不一定意味着 GPT-4 的解释不正确。例如,分类为基质细胞的细胞类别包括表白 I 型胶原基因的成纤维细胞和成骨细胞,以及表白 II 型胶原基因的软骨细胞。对于手动解释为基质细胞的细胞,GPT-4 会分配更高粒度的细胞类别解释,从而导致部分婚配和较低的一致性。
对于手动解释为基质细胞但被 GPT-4 识别为成纤维细胞或成骨细胞的细胞类别,I 型胶原蛋白基因的表白量明显高于 II 型胶原蛋白基因。这与在手动解释为软骨细胞、成纤维细胞和成骨细胞的细胞中观察到的模式一致,表明 GPT-4 为基质细胞提供了更准确的细胞类别解释。
根据平均一致性分数,GPT-4 大大优于其他格式。应用 GPTCelltype 作为接口,GPT-4 的速度也明显更快,部分原因是它利用了来自标准单细胞综合流程(例如 Seurat)的差异基因。鉴于这些管道的不可或缺的作用,研讨职员认为差异基因可立即用于 GPT-4。
相比之下,SingleR 和 ScType 等其他格式需要额外的步骤来重新处理基因表白矩阵。与其他免费格式相比,GPT-4 应用在线门户网站需要支付 20 美元的月费。GPT-4 API 的成本与查询的细胞类别数量线性相关,并且本研讨中所有查询的成本不超过 0.1 美元。
研讨职员通过模拟数据集进一步评价了 GPT-4 在复杂真实数据场景中的稳健性。GPT-4 可以以 93% 的准确度区分纯细胞类别和混合细胞类别,以 99% 的准确度区分已知和未知细胞类别。当输入基因集包含较少基因或被噪声污染时,GPT-4的性能下降但仍然很高。
最后,该团队应用先前的模拟研讨评价了 GPT-4 解释的再现性。GPT-4 在 85% 的情况下对相同的标志基因产生了相同的解释,表明具有很高的重现性。两个 GPT-4 版本的解释在大多数情况下显示出相同的一致性分数,Cohen’s κ 为 0.65,证实了显著的一致性。
「所有这些结果都证实了 GPT-4 在各种情况下的稳健性。」Hou 说。
结语
虽然 GPT-4 在细胞类别解释方面表现出色,超越了现有格式,但仍存在需要考虑的局限性。
首先,GPT-4训练语料库的未公开性质使得验证其解释基础具有挑战性,因此需要人工评价以确保解释质量和可靠性。
其次,人类参与模型的可选微调可能会由于主观性而影响再现性,并可能限制模型在大型数据集中的可扩展性。
第三,scRNA-seq数据中的高噪声水平和不可靠的差异基因可能会对GPT-4的解释产生不利影响。
最后,过度依赖 GPT-4 可能会引发人工智能幻觉。
研讨职员建议在进行下游综合之前由人类大师验证 GPT-4 的细胞类别解释。
论文链接:https://www.nature.com/articles/s41592-024-02235-4
相关报道:https://phys.org/news/2024-03-gpt-cell-cells-outperforms-expert.html