白话告诉你大模型到底是怎么工作的

图片本文转载自微信公众号「程序反思录」,作者程序反思录 。 转载本文请联系程序反思录公众号。 前言2022年底“大模型”在国内突然遍地开花,不管你身处什么行业,都或多或少听说或使用过大模型相关的工具,也听说过大模型训练是一件超级烧钱的事情。

图片图片

本文转载自微信公众号「程序反思录」,作者程序反思录 。转载本文请联系程序反思录公众号。

前言

2022年底“大模型”在国内突然遍地开花,不管你身处什么行业,都或多或少听说或使用过大模型相关的工具,也听说过大模型训练是一件超级烧钱的事情。那你是否有想过大模型训练为什么会这么烧钱,或者说大模型到底大在了哪里呢?

防止劝退,阅读本文章你不用担心看不懂晦涩难懂的公式以及计算过程,本文仅作为一篇大模型科普文章,带你了解你使用的大模型背后的故事,文章最后会推荐一些帮助博主日常提效的大模型工具,希望通过本文能让你对大模型有新的认识和理解。

大模型的工作过程

图片图片

从上图可以看出,树左侧Encoder-Only:表示仅做学习和理解内容的工作;树右侧Decoder-Only:表示做内容生成的工作。 大众目前使用的大模型工具也基本集中在树右侧,比如大名鼎鼎的chat-gpt系列模型。

大模型的训练构成可以拆解成:推理过程 + 训练过程,我们通过理解这两个过程来感受大模型到底是如何工作的。

推理过程

1. 词向量

  • 向量表示:每个单词被表示为一个高维向量(比如三维、四维甚至更高维度),这些向量通常通过训练模型从大量文本数据数据中学习而获得的。
  • 语义相似性:在向量空间中,语义相似的单词会被映射到相近的位置(类似于物以类聚人以群分的感觉)。例如,“king”和“queen”都有“国王”的意思,它两在向量空间中相对位置就比较近。

同义词的case:

king和queen都有“国王”的意思,big和biggest都表示大的意思。

同音异义词(一词多义)的case:

china:既可以表示为“中国”的意思,也可以理解成“瓷器”的意思;magazine:可以指代杂志或者是杂志社。

无论是同义词还是同音异义词在大模型中是如何区分的呢?那就是向量的概念,对于多义词的含义使用的向量比较相似,而对于同音异义词使用的向量则不太相似。

2. 词向量模型

  • WOrd2Vec(2013年):由Google提出,包括CBOW(Continuous Bag Of Words)和Skip-Gram。前者通过预测上下文词来学习目标词的标识,后者通过目标词来预测上下文词。
  • GlocVe(2014年):由斯坦福大学提出,通过统计整个语料库中的词共现矩阵来学习词向量。
  • FastText(2016年):由Facebook提出,扩展了Word2Vec,考虑了词的子词(subword)信息,使得模型在处理未见过的单词或拼写错误时有更好的表现。

3. Transformer架构

图片图片

transformer框架通过修改词向量来存储每个词的隐藏含义(即上图中空色字体的内容),通过第一层transformer处理输出后的新向量被称为隐藏状态hidden state,然后在传递给下一层transformer,在经过transformer处理,解释出来了his和bank的真实语境含义。

对于Chat-GPT3大模型,transformer的中间层数达到了96层,有研究表名前基层的神经网络会专注于理解句子的语法,并解决上面所表示的歧义,后面的层重点致力于对整个文本段落的更高层次的理解。

对于GPT3模型,它使用了12288维的词向量,也就意味着每个词有12288个维度;所以一个单词通过输入到最后数据的输出就需要计算1179648次(有没有感觉计算量非常大); 同时GPT3需要理解上下文之间关联更多的信息,需要引入注意力头的概念来进行信息的表达,在每一层的transformer都会存在96个注意力头,所以在每次预测一个新词的时候,需要执行9126次计算。

由于模型是通过海量简单的向量运算,所以非常适合在GPU上进行训练,同时由于计算数据量级超级大,一次模型训练可能需要花上几十天甚至更多,算力和电力成本可想而知是非常巨大的。

训练过程

1. 早期的机器学习算法

早期的机器学习算法主要分为有监督和无监督学习两大类。

有监督学习:用于训练的样本数据提前被打上各种标签,让机器提前知道样本真正代表了什么,随着机器不断学习之后,投喂给机器一个未打标签的数据,从而让它得出这个数据对应的标签是什么。

无监督学习:提前并未给训练数据打上任何标签,而是让机器自动计算,通过不断的计算迭代后,最终相似的数据逐渐聚合在一起,不相似的数据则逐渐远离。

对于有监督学习,由于需要预先对大量数据人工打上标签,导致训练大模型这件事情就变得非常困难且成本非常高,以至于无法继续推进,那么无监督学习对于大模型来说可实施性相对就更强一些(当然对于GPT,在实际训练过程中,也会有部分人工达标的工作用于修正模型)。

2. 大模型的训练过程

通过尝试预测文本段落中的下一个单词来学习几乎任何的书面材料。对于一个新的模型,一开始预测的结果很差,因为对于一个新模型,它的每个权重参数最初状态都是从一个随机数字开始,随着模型接触到越来越的case,模型开始调整参数权重,从而实现GPT3的效果。

一个具体的case:城市地下网络管道非常多且错综复杂,为了让水流出到指定位置,当水流过错误的管道,就需要将对应管道的水龙头关闭,在整个水流经的管道上,通过反复的向前后向后检查流经路径,并调整对应的管道阀门,最终水流向了指定的目的地,这个反复调整各个部位的权重的过程,正是大模型训练的一个过程。

当然在整个训练过程中还有很多具体的概念,比如前向传播、后向传播、以及损失函数等,不会在本文展开,感兴趣的朋友可以自行通过GPT/百度来了解详细过程。

工具推荐

推荐一些博主日常使用的大模型工具,供大家参考

可灵大模型(视频&图片生成)

官网地址:https://kling.kuaishou.com/

APP:可灵AI

图片图片

秘塔AI搜索(学术搜索)

官网地址:https://metaso.cn/

APP:秘塔AI搜索

图片图片

Kimi智能助手(百科搜索)

官网地址:https://kimi.moonshot.cn/

APP:Kimi只能助手

图片图片

豆包(百科搜索、知识问答)

官网地址:https://www.doubao.com/chat/

APP:豆包

图片图片

通义灵码(代码续写)

官网地址:https://tongyi.aliyun.com/lingma/

图片图片

总结

本文通过大白话的方式介绍了大模型的一个基础训练过程,以及浅显的展示了大模型究竟大到了哪里,从而理解大模型训练庞大的数据为什么那么贵,随着技术的快速发展,相信未来大模型一定会对我们的生活产生非常大的影响。

相关资讯

Tokenization,再见!Meta提出大概念模型LCM,1B模型干翻70B?

最近,受人类构思交流的高层级思路启发,Meta AI研究员提出全新语言建模新范式「大概念模型」,解耦语言表示与推理。 网友Chuby兴奋地表示:「如果Meta的大概念模型真的有用,那么同等或更高效率的模型,其规模将更小。 比如说1B模型将堪比70B的Llama 4。

百分点认知智能实验室:基于不完全标注样本集的信息抽取实践

编者按信息抽取是从文本数据中抽取特定信息的一种技术,命名实体识别(Named Entity Recognition, NER)是信息抽取的基础任务之一,其目标是抽取文本中具有基本语义的实体单元,在知识图谱构建、信息抽取、信息检索、机器翻译、智能问答等系统中都有广泛应用。基于监督学习的NER系统通常需要大规模的细粒度、高精度标注数据集,一旦数据标注质量下降,模型的表现也会急剧下降。利用不完全标注的数据进行NER系统的建立,越来越受到专家学者们的关注。第九届国际自然语言处理与中文计算会议(NLPCC 2020)针对此业

关键点检测项目代码开源了!

作者:闫永强,算法工程师,Datawhale成员 本文通过自建手势数据集,利用YOLOv5s检测,然后通过开源数据集训练squeezenet进行手部关键点预测,最后通过指间的夹角算法来判断具体的手势,并显示出来。文章第四部分为用C 实现整体的ncnn推理(代码较长,可先马后看)一、YOLOV5训练手部检测训练及部署思路类似表情识别,需要将handpose数据集标签改成一类,只检测手部,简化流程,更易上手。此部分数据集来源格物钛  ,具体的效果如图:本教程所用训练环境:系统环境:Ubuntu16.04cuda版本: