墙裂推荐!Karpathy大模型培训课LLM101n上线了,非常基础

让我们训练一个 Storyteller。今天外网又被 Andrej Karpathy 这一良心课程刷屏了!项目是 11 小时前被 Karpathy 上传到 Github 的,目的是要构建一个能够创作、提炼和阐释小故事的大语言模型。如今已经被许多网友转发推荐。项目地址:,这是 karpathy 老师的新冒险。它将带您从语言建模、机器学习的基础知识开始学习,然后到多模态、RLHF、模型部署。也有网友称:看起来 karpathy 正在做一门完整的、类似 cs231n 的课程, 《LLM101n》将讲授如何从头开始构建类似

让我们训练一个 Storyteller。

图片

今天外网又被 Andrej Karpathy 这一良心课程刷屏了!

项目是 11 小时前被 Karpathy 上传到 Github 的,目的是要构建一个能够创作、提炼和阐释小故事的大语言模型。如今已经被许多网友转发推荐。

图片

项目地址:https://github.com/karpathy/LLM101n

有网友表示,这是 karpathy 老师的新冒险。它将带您从语言建模、机器学习的基础知识开始学习,然后到多模态、RLHF、模型部署。

图片

也有网友称:看起来 karpathy 正在做一门完整的、类似 cs231n 的课程, 《LLM101n》将讲授如何从头开始构建类似 ChatGPT 的模型,非常雄心勃勃!

图片

以下是该课程的项目简介:

在本课程中,我们将构建一个 Storyteller AI 大型语言模型 (LLM),旨在使用 AI 创建、完善和说明小故事,涵盖从基础到类似于 ChatGPT 的可运行 Web 应用程序,并使用 Python、C 和 CUDA 从头开始构建项目,并且只需要最少的计算机科学前提条件。这门课程将使学生对 AI、LLM 和深度学习有相对深入的了解。

教学大纲如下:

第 01 章 Bigram 语言模型(语言建模)

第 02 章 Micrograd(机器学习、反向传播)

第 03 章 N-gram 模型(多层感知器、matmul、gelu)

第 04 章 Attention(attention、softmax、位置编码器)

第 05 章 Transformer(transformer、residue、layernorm、GPT-2)

第 06 章 Tokenization(minBPE、字节对编码)

第 07 章 优化(初始化、优化、AdamW)

第 08 章 Deepspeed I:设备(设备,CPU,GPU,...)

第 09 章 DS II:精度(混合精度训练,fp16,bf16,fp8,......)

第 10 章 DS III:分布式(分布式优化、DDP、ZeRO)

第 11 章 数据集(数据集、数据加载、合成数据生成)

第 12 章 推理 I:kv-cache(kv-cache)

第 13 章 推理 II:量化(quantization)

第 14 章 微调 I:SFT(监督微调 SFT、PEFT、LoRA、聊天(chat))

第 15 章 微调 II:RL(强化学习,RLHF,PPO,DPO)

第 16 章 部署(API、Web 应用程序)

第 17 章 多模态(VQVAE、扩散 transformer)

那还等什么,学起来吧!

相关资讯

清华“太极-Ⅱ”光芯片面世:成果登 Nature,首创全前向智能光计算训练架构

据清华大学官方消息,清华大学电子工程系方璐教授课题组、自动化系戴琼海院士课题组另辟蹊径,首创了全前向智能光计算训练架构,研制了“太极-II”光训练芯片,实现了光计算系统大规模神经网络的高效精准训练。该研究成果以“光神经网络全前向训练”为题,于北京时间 8 月 7 日晚在线发表于《自然》期刊。AI在线查询获悉,清华大学电子系为论文第一单位,方璐教授、戴琼海教授为论文的通讯作者,清华大学电子系博士生薛智威、博士后周天贶为共同一作,电子系博士生徐智昊、之江实验室虞绍良博士参与了该项工作。该课题受到国家科技部、国家自然科学

斯坦福NLP课程XCS224U视频全部放出,干货满满,速来听讲

50 个视频任君学习!从对话智能体到搜索查询,自然语言理解(NLP)是当今许多最令人兴奋的技术的基础。如何建立这些模型来高效、可靠地理解语言?如果你还没有那么清楚的话,是否会找个课程来听呢?但是有些课程不仅天价还很难报名,有些课程不仅质量极高还免费公开。谁不想要这后者呢?没错,今天机器之心为大家介绍的是斯坦福 XCS224U:自然语言理解 (2023)课程。它干货满满,讲师 Christopher Potts 让这门课充满魅力。更重要的是,这堂课已经放出了全部视频,50 个视频任君学习。视频地址:、自然语言处理和机

生成式AI时代的模型压缩与加速,韩松主讲MIT课程,资料全公开

近年来,生成式大模型(如大语言模型、扩散模型)已显示出卓越的性能,但它们需要大量的计算资源。为了让这些模型更易于使用,提高它们的效率至关重要。在最新的一季 MIT 6.5940 课程中,MIT 学者韩松将深入解读生成式大模型时代的「AI 计算的模型压缩与加速技术」。课程主页:《TinyML 和高效的深度学习计算》。概括来说,这门课程将介绍高效的人工智能计算技术,以便在资源有限的设备上实现强大的深度学习应用。课程主题包括模型压缩、剪枝、量化、神经架构搜索、分布式训练、数据 / 模型并行化、梯度压缩和设备微调,还介绍了