首个单细胞生物学基础大型语言模型，在超1000万个细胞从事预训练

编辑 | 紫罗生成式预训练模型在自然语言处理（NLP）和计算机视觉等领域取得了显著的成功。文本是由文字组成的，细胞可以用基因来表征。NLP 和单细胞生物学之间的另一个核心相似之处是，用于训练的公开可用的单细胞 RNA 测序（scRNA-seq）数据的规模庞大且不断增长。NLP 模型是否也能理解单细胞生物学的内在逻辑并发展「涌现思维」？近日，来自加拿大多伦多大学和彼得·蒙克心脏中心（Peter Munk Cardiac Centre）的钻研职员，通过利用呈指数增长的单细胞测序数据，首次尝试对超过 1000 万个细胞进

编辑 | 紫罗

生成式预训练模型在自然语言处理（NLP）和计算机视觉等领域取得了显著的成功。

文本是由文字组成的，细胞可以用基因来表征。

NLP 和单细胞生物学之间的另一个核心相似之处是，用于训练的公开可用的单细胞 RNA 测序（scRNA-seq）数据的规模庞大且不断增长。

NLP 模型是否也能理解单细胞生物学的内在逻辑并发展「涌现思维」？

近日，来自加拿大多伦多大学和彼得·蒙克心脏中心（Peter Munk Cardiac Centre）的钻研职员，通过利用呈指数增长的单细胞测序数据，首次尝试对超过 1000 万个细胞从事生成预训练来构建单细胞基础模型。

这是第一个基于单细胞生物学的大型语言模型。

有推特网友表示：「这是令人印象深刻的工作，并举例说明了生成式人工智能时代的融合。」

首个单细胞生物学基础大型语言模型，在超1000万个细胞从事预训练

还有网友说：「我们能说这就结束了表观遗传学的钻研吗?」

首个单细胞生物学基础大型语言模型，在超1000万个细胞从事预训练

钻研职员证明了生成式预训练 Transformer scGPT 可以有效地捕获对基因和细胞有意义的生物学见解。此外，该模型可以很容易地从事微调，以在各种下游使命中实现最先进的性能，包括 multi-batch 调整、多组学调整、细胞范例注释、遗传扰动预测和基因收集推断。

scGPT 代码库可在 https://github.com/bowang-lab/scGPT 上公开获得。

该钻研以「scGPT: Towards Building a Foundation Model for Single-Cell Multi-omics Using Generative AI」为题，于 2023 年 5 月发布在 BioRxiv预印平台。

首个单细胞生物学基础大型语言模型，在超1000万个细胞从事预训练

从 GPT 中汲取灵感

生成式预训练模型最近在许多领域取得了前所未有的成功。

但目前单细胞钻研中基于机器进修的发现相当分散，特定模型专用于特定分析使命。由于测序能力和钻研问题的范围，每项钻研中使用的数据集的广度和规模通常也有限。这需要在大规模数据上从事预训练的基础模型，以实现对单细胞生物学的一般理解。

虽然单细胞生物学中生成预训练的可行性在很大程度上仍未得到探索，但可以从其他领域汲取关于建模和以数据为中心的观点的灵感。

scGPT 在下游使命中表现最佳

在此，钻研职员首次尝试通过对超过 1000 万个细胞从事生成预训练来构建单细胞基础模型 scGPT。钻研证明预训练模型在基因和细胞水平上捕获了有意义的生物学见解。通过在少量进修设置中从事微调，该模型在广泛的下游使命上实现了最先进的性能。

scGPT 首先对来自细胞图谱的大规模 scRNA-seq 数据从事生成训练。对于下游应用，可以根据新数据微调预训练模型权重。scGPT 的核心组件包含带有用于生成训练的专门注意掩码的堆叠 Transformer 块。将 scGPT 应用于各种使命，包括多组学调整、batch 校正、细胞范例注释、遗传扰动预测和基因收集推理。输入包含三层信息：基因标记、表达值和条件标记。

首个单细胞生物学基础大型语言模型，在超1000万个细胞从事预训练

图示：scGPT 模型示意图。（来源：论文）

通过在少量进修设置中从事微调，scGPT 在各种下游使命上实现了最先进的性能，包括 batch 校正、多组学调整、细胞范例注释、遗传扰动预测和基因调控收集推断。

调整多个 scRNA-seq 数据并从事 batch 校正

scGPT 以 scVI（一种深度进修模型）、Harmony 和 Seurat 为基准，调整了两个数据集：PBMC（2 batches）和 Immune Human（10 batches）。

首个单细胞生物学基础大型语言模型，在超1000万个细胞从事预训练

图示：使用 scVI、Seurat Seurat 和 Harmony Harmony 对 Immune Human（10 batches）和 PBMC 10K（2 batches）数据集从事 batch 调整时细胞范例聚类性能的基准测试。进修细胞嵌入的 UMAP 图按细胞范例着色。（来源：论文）

根据多项生物保护指标评估，scGPT 表现最佳（这里的目标是尽量减少相同细胞范例的细胞扩散）。scGPT（深粉色）始终高于其他标准。尽管如此，所有工具似乎总体上都表现不错。

首个单细胞生物学基础大型语言模型，在超1000万个细胞从事预训练

图示：scGPT 模型与其他基准方法在 AvgBIO 上的比较、详细的生物保护指标（NMIcell、ARIcell、ASWcell）和总分。

细胞范例标注

对于这项使命，预训练的 scGPT 模型使用交叉熵损失对来自人类胰腺细胞新参考数据集的真实标签从事了微调。

然后，它的使命是识别另一个人类胰腺数据集上的细胞范例。

首个单细胞生物学基础大型语言模型，在超1000万个细胞从事预训练

图示：hPancreas 查询集中按真实细胞范例着色的细胞的 UMAP 可视化。（来源：论文）

ChatGPT 也可以通过文献浏览来从事细胞范例分配，但是，这里有一个非常重要的区别，scGPT 在某种意义上与文献浏览相反，因为它是全自动的。

遗传扰动预测

两个 Perturb-Seq 数据集，在这些数据集上评估了扰动后预测值和相应的真实表达值之间的相关性。

表 1：扰动预测结果。（来源：论文）

首个单细胞生物学基础大型语言模型，在超1000万个细胞从事预训练

scGPT 表现不错，但（再次）所有测试工具确实具有相似的性能。

多组学调整

每种组学范例（例如基因表达、染色质可及性、蛋白质丰度）对应于 NLP 中的不同语言。

首个单细胞生物学基础大型语言模型，在超1000万个细胞从事预训练

图示：使用 scGLUE 和 Seurat v4 在 10x Multiome PBMC数据集（配对数据设置）上从事细胞范例聚类使命的 few-shot scGPT 模型基准测试。（来源：论文）

scGPT 表现很好（通过多种生物学论证），例如，它是为 CD8 naive T 生成单独簇的唯一方法。

基因调控收集推断

在此使命中，对 scGPT 从事了测试，以对功能相关的基因从事分组，并将不同的基因与其基因嵌入收集区分开来。

在此针对已知生物学验证 scGPT 的基因嵌入收集，然后探索其在基因程序发现中的适用性。

首个单细胞生物学基础大型语言模型，在超1000万个细胞从事预训练

图示：用于基因调控收集推理的基因嵌入。（来源：论文）

钻研表明 scGPT 已经从零样本（zero- shot）设置中的生成预训练中进修到了有意义的生物模式。更具体地说，钻研证明了 scGPT 通过利用预训练模型在新数据集上执行无监督基因程序发现以及其他细胞级分析使命的能力。这一尝试是在基础模型的协助下，向单细胞领域的知识发现迈出的第一步。

未来展望

总之，scGPT 是第一个利用从超过 1000 万个单细胞数据中进修的预训练 Transformer 的基础模型。

钻研职员特此发布 scGPT 代码库和预训练模型。希望这能提供一个统一的框架，以帮助钻研职员轻松地使预训练模型适应其手头的使命。

对于未来，钻研职员表示：「我们计划在更多样性、大规模的数据集上从事预训练，包括多组学数据、空间组学和疾病状况。在因果发现的预训练阶段结合扰动和时间数据也很有趣。

更重要的是，我们希望在更广泛的具有生物学意义的使命上验证预训练模型，以理解和解释预训练模型学到了什么。我们还旨在探索单细胞数据的上下文指令进修。目标是拥有一个预训练模型，该模型无需微调即可理解零样本设置中的不同使命和上下文。因此，scGPT 是使用大规模预训练基础模型来理解细胞生物学背景和细微差别的第一步。我们设想预训练范式可以很容易地调整到单细胞钻研中，并作为利用呈指数增长的细胞图谱中的现有知识从事新发现的基础。」

论文链接：https://www.biorxiv.org/content/10.1101/2023.04.30.538439v1

参考内容：https://twitter.com/simocristea/status/1654581096498229250

{{userData.name}}已认证

首个单细胞生物学基础大型语言模型，在超1000万个细胞从事预训练

将26个token紧缩成1个，新方式极致节省ChatGPT输入框空间

存算一体大算力芯片赋能智能驾驭，后摩智能发布鸿途™H30

刚刚，AI颠覆物理模拟：一句话精准仿真，学术圈半壁江山联手耗时24个月研究成果

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

2024年AI 编程现在可以做到什么程度？

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践

抢跑OpenAI！谷歌Gemini 2.0震撼登场：全面转向Agent，多模态输入输出，免费随便玩

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！