作为人工智能领域「暴力美学」的代表作,GPT 可谓是出尽风头,从诞生之初的 GPT 1.17 亿参数,一路狂飙到 GPT-3 1750 亿参数。随着 GPT-3 的发布,OpenAI 向社区开放了商业 API,鼓励大家应用 GPT-3 实验更多的实验。然而,API 的应用必要申请,而且你的申请很有可能石沉大海。
为了让资源有限的研究者也能体验一把玩大模型的乐趣,前特斯拉 AI 负责人 Andrej Karpathy 基于 PyTorch,仅用 300 行左右的代码就写出了一个小型 GPT 训练库,并将其定名为 minGPT。这个 minGPT 能够从事加法运算和字符级的语言建模,而且准确率还不错。
时隔两年,minGPT 迎来更新,Karpathy 又上线新版本,并定名为 NanoGPT,该库用于训练和微调中型大小的 GPT。上线短短几天,狂揽 2.5K 星。
项目地址:https://github.com/karpathy/nanoGPT
在项目介绍中,Karpathy 这样写道:「NanoGPT 是用于训练和微调中型尺度 GPT 最单一、最快的库。是对 minGPT 的重写,因为 minGPT 太复杂了,以至于我都不愿意在应用它。NanoGPT 还在开发当中,当前致力于在 OpenWebText 数据集上重现 GPT-2。
NanoGPT 代码设计目标是单一易读,其中 train.py 是一个约 300 行的代码;model.py 是一个约 300 行的 GPT 模型定义,它可以选择从 OpenAI 加载 GPT-2 权重。」
为了呈现数据集,用户首先必要将一些文档 tokenize 为一个单一的 1D 索引数组。
$ cd data/openwebtext $ python prepare.py
这将生成两个文献:train.bin 和 val.bin,每个文献都包含一个代表 GPT-2 BPE token id 的 uint16 字节原始序列。该训练底本试图复制 OpenAI 提供的最小的 GPT-2 版本,即 124M 版本。
$ python train.py
假如你想应用 PyTorch 分布式数据并行(DDP)从事训练,请应用 torchrun 运转底本。
$ torchrun --standalone --nproc_per_node=4 train.py
为了让代码更有效,用户也可以从模型中从事取样:
$ python sample.py
Karpathy 表示,该项目目前在 1 个 A100 40GB GPU 上一晚上的训练丧失约为 3.74,在 4 个 GPU 上训练丧失约为 3.60。在 8 x A100 40GB node 上从事 400,000 次迭代(约 1 天)atm 的训练降至 3.1。
至于如何在新文本上微调 GPT,用户可以访问 data/shakespeare 并查看 prepare.py。与 OpenWebText 不同,这将在几秒钟内运转。微调只必要很少的时间,例如在单个 GPU 上只必要几分钟。下面是运转微调的一个例子
$ python train.py config/finetune_shakespeare.py
项目一上线,已经有人开始实验了:
想要实验的小伙伴,可以参考原项目运转。