速揽2500星，Andrej Karpathy重写了一份minGPT库

时隔两年，GPT的Pytorch训练库minGPT迎来更新！

作为人工智能领域「暴力美学」的代表作，GPT 可谓是出尽风头，从诞生之初的 GPT 1.17 亿参数，一路狂飙到 GPT-3 1750 亿参数。随着 GPT-3 的发布，OpenAI 向社区开放了商业 API，鼓励大家应用 GPT-3 实验更多的实验。然而，API 的应用必要申请，而且你的申请很有可能石沉大海。

为了让资源有限的研究者也能体验一把玩大模型的乐趣，前特斯拉 AI 负责人 Andrej Karpathy 基于 PyTorch，仅用 300 行左右的代码就写出了一个小型 GPT 训练库，并将其定名为 minGPT。这个 minGPT 能够从事加法运算和字符级的语言建模，而且准确率还不错。

时隔两年，minGPT 迎来更新，Karpathy 又上线新版本，并定名为 NanoGPT，该库用于训练和微调中型大小的 GPT。上线短短几天，狂揽 2.5K 星。

速揽2500星，Andrej Karpathy重写了一份minGPT库

项目地址：https://github.com/karpathy/nanoGPT

在项目介绍中，Karpathy 这样写道：「NanoGPT 是用于训练和微调中型尺度 GPT 最单一、最快的库。是对 minGPT 的重写，因为 minGPT 太复杂了，以至于我都不愿意在应用它。NanoGPT 还在开发当中，当前致力于在 OpenWebText 数据集上重现 GPT-2。

NanoGPT 代码设计目标是单一易读，其中 train.py 是一个约 300 行的代码；model.py 是一个约 300 行的 GPT 模型定义，它可以选择从 OpenAI 加载 GPT-2 权重。」

速揽2500星，Andrej Karpathy重写了一份minGPT库

为了呈现数据集，用户首先必要将一些文档 tokenize 为一个单一的 1D 索引数组。

$ cd data/openwebtext
$ python prepare.py

这将生成两个文献：train.bin 和 val.bin，每个文献都包含一个代表 GPT-2 BPE token id 的 uint16 字节原始序列。该训练底本试图复制 OpenAI 提供的最小的 GPT-2 版本，即 124M 版本。

$ python train.py

假如你想应用 PyTorch 分布式数据并行（DDP）从事训练，请应用 torchrun 运转底本。

$ torchrun --standalone --nproc_per_node=4 train.py

为了让代码更有效，用户也可以从模型中从事取样：

$ python sample.py

Karpathy 表示，该项目目前在 1 个 A100 40GB GPU 上一晚上的训练丧失约为 3.74，在 4 个 GPU 上训练丧失约为 3.60。在 8 x A100 40GB node 上从事 400,000 次迭代（约 1 天）atm 的训练降至 3.1。

至于如何在新文本上微调 GPT，用户可以访问 data/shakespeare 并查看 prepare.py。与 OpenWebText 不同，这将在几秒钟内运转。微调只必要很少的时间，例如在单个 GPU 上只必要几分钟。下面是运转微调的一个例子

$ python train.py config/finetune_shakespeare.py

项目一上线，已经有人开始实验了：

速揽2500星，Andrej Karpathy重写了一份minGPT库

想要实验的小伙伴，可以参考原项目运转。

{{userData.name}}已认证

速揽2500星，Andrej Karpathy重写了一份minGPT库

噪声总是有害吗？西工大李学龙教授提出基于恣意熵的数学分析框架

手艺、生态和家产齐头并进，AI生长进入「深度进修+」阶段

推理模型 DeepSeek-R1-Lite 预览版上线，号称媲美 OpenAI o1-preview

AI自动操作VS Code，自然语言搞定各种配置，来自阿里通义智能计算实验室 | 开源

九大成像模式一键解析，生物医学图像AI再迎突破！微软、UW等BiomedParse登Nature子刊

微软在东京开设其日本首个研发中心，专注于将机器人技术与 AI 相结合

SU 哈佛亚马逊最新研究：量化能让大模型“恢复记忆”，删掉的隐私版权内容全回来了

钉钉AI重磅更新：深入业务场景，上线工单等场景AI助理

Red Hat 收购 Neural Magic 并开源其技术：优化通用设备 AI 性能，可媲美专用芯片

AI 助力脑瘤手术：10 秒内精准识别残留肿瘤