Karpathy最新四小时视频教程:从零复现GPT-2,通宵运行即搞定

这是Karpathy「Neural Networks:zero to hero」系列视频的最新内容。AI 大牛 Andrej Karpathy 又「上新」了,这次一口气放出了长达四个小时的视频。视频主题为「让我们来复现 GPT-2(1.24 亿参数)」。Karpathy 表示,此次视频之所以这么长,是因为它很全面:从空文件开始,最后得到一个 GPT-2(124M)模型。具体实现步骤包括如下:首先构建 GPT-2 网络。然后对其进行优化,以便快速训练。然后通过参考 GPT-2 和 GPT-3 论文来设置训练运行优化和

这是Karpathy「Neural Networks:zero to hero」系列视频的最新内容。

AI 大牛 Andrej Karpathy 又「上新」了,这次一口气放出了长达四个小时的视频。

视频主题为「让我们来复现 GPT-2(1.24 亿参数)」。

图片

Karpathy 表示,此次视频之所以这么长,是因为它很全面:从空文件开始,最后得到一个 GPT-2(124M)模型。

具体实现步骤包括如下:

首先构建 GPT-2 网络。

然后对其进行优化,以便快速训练。

然后通过参考 GPT-2 和 GPT-3 论文来设置训练运行优化和超参数。

然后进行模型评估。

然后祈祷好运,并去睡觉。

第二天早上,查看结果并享受有趣的模型生成。通宵运行的结果甚至非常接近 GPT-3(124M)模型。

该视频以「Zero To Hero」系列视频为基础,有些地方参考了以往视频。你可以根据该视频构建 nanoGPT 存储库,到最后大约有 90% 相似。

当然,Karpathy 上传了相关的 GitHub 存储库「build-nanogpt」,包含了全部提交历史,这样你可以一步步看到视频中所有的代码变化。

图片

 GitHub 地址:https://github.com/karpathy/build-nanogpt

AI 独角兽 Scale AI CEO Alexandr Wang 表示,Karpathy 发布视频就像是流行歌手发布新单曲一样。

图片

甚至还有人将 Karpathy 的推特内容通过文生音乐模型 Suno 转换为了一首 Rap,简直了。Karpathy最新四小时视频教程:从零复现GPT-2,通宵运行即搞定

                                   图源:https://x.com/peterxing/status/1799960277288677478

视频概览

该视频分为了四大部分:建立网络(很多是以往教程回顾)、加快训练速度、设置运行和结果。

视频第一部分内容(带时间戳)具体如下:

00:13:47 第 1 部分:实现 GPT-2 nn.Module

00:28:08 加载 huggingface/GPT-2 参数

00:31:00 实现前向传递以获取 logits 

00:33:31 采样初始化、前缀 token、tokenization

00:37:02 采样循环

00:41:47 采样、自动检测设备

00:45:50 让我们训练:数据批次 (B,T) → logits (B,T,C)

00:52:53 交叉熵损失

00:56:42 优化循环:过度拟合单个批次

视频第二部分内容(带时间戳)具体如下:

01:22:18 第 2 部分:让我们加快速度。GPU、混合精度、1000 毫秒 

01:28:14 Tensor Cores、代码计时、TF32 精度、333 毫秒 

01:39:38 float16、梯度缩放器、bfloat16、300 毫秒 

01:48:15 torch.compile、Python 开销、内核融合、130 毫秒 

02:00:18 flash attention 技术、96 毫秒 

02:06:54 nice/ugly 数。词汇量 50257 → 50304,93 毫秒

视频第三部分内容(带时间戳)具体如下:

02:14:55 第 3 部分:超参数、AdamW、梯度裁剪

02:21:06 学习率调度器:预热 + 余弦衰减

02:26:21 批大小调度、权重衰减、FusedAdamW、90 毫秒

02:34:09 梯度累积

02:46:52 分布式数据并行 (DDP)

03:10:21 GPT-2、GPT-3、FineWeb (EDU) 中使用的数据集

03:23:10 验证数据拆分、验证损失、采样恢复

03:28:23 评估:HellaSwag,开始运行

视频第四部分内容(带时间戳)具体如下:

03:43:05 第 4 部分:早上出结果!GPT-2、GPT-3 复现成功

03:56:21 向 llm.c 致敬,原始 C/CUDA 中等效但速度更快的代码

03:59:39 总结,并上传「build-nanogpt github」存储库

完整视频参见如下:https://www.youtube.com/watch?v=l8pRSuU81PU&feature=youtu.be

相关资讯

充电续航 | ChatGPT和大模型春季课程报名啦!

导读RLChina 邀请了全球相关领域知名专家和学者举办 ChatGPT和大模型春季课程,深入讲解ChatGPT和大模型的原理和实践,从不同的角度探讨“ChatGPT以后的通用人工智能理论和应用”。课程为期一周,分为实践课、专题报告和话题讨论三个部分,希望能给更广泛的爱好者带来帮助。点击文末链接即可访问 RLChina 强化学习社区。课程安排主 题ChatGPT 和大模型春季课程时 间2023 年 3 月 13 日至 17 日 19:00-21:00讲 师来自全球顶尖高校和企业的专家授 课 形 式开放的免费网络直播

OpenAI 官宣 5 月 13 日直播演示 ChatGPT 更新内容

感谢OpenAI 日前宣布,将于太平洋时间 5 月 13 日 10:00 (IT之家注:北京时间 5 月 14 日凌晨 1:00)网络直播一些关于 ChatGPT 的升级内容。值得一提的是,Sam Altman 在 X 平台转发了上述消息,并确认下周一不会发布 GPT-5,也不会发布 AI 搜索引擎。他还表示:“我们一直在努力开发一些我们认为人们会喜欢的新东西,对我来说感觉就像魔法一样。”此前有报道称,OpenAI 一直在秘密开发其自家网络搜索服务,并将获得来自微软 Bing(必应)搜索引擎的支持。OpenAI 计

论坛预告|WAIC 2024腾讯论坛,邀你共话AI,智创未来

主题:智创未来地点:上海世博中心红厅时间:7月5日14:00-17:007月5日,由腾讯华东总部主办,腾讯优图实验室、腾讯云智能、腾讯研究院、腾讯新闻共同协办的 2024 世界人工智能大会腾讯论坛将在上海世博中心红厅举办。今年腾讯论坛以“智创未来”为主题,邀请来自学术界及产业界的嘉宾共同探讨AI领域前沿思想,探索人工智能发展新机遇。相信智慧的碰撞能激发技术的革新,深度的探讨能预见更智慧更美好的未来。为您正式揭晓腾讯论坛嘉宾阵容                                         蒋杰