想深度掌握AI？先搞懂说话大模型：技术原理

作为一个曾经的 VUI 领域从业者，LLM 出现后非常想要弄清大模型对 VUI 领域的影响，于是有了此文。本文部分内容由 GPT 协助完成。相关干货：技术原理 1. LLM ①定义和特点 LLM 是说话模型（Language Model）的一种，简单来说，LLM 通过进修大量的文本数据，例如文章、对话和网页等，来预测下一个词或下一段话的可能性，从而使计算机不妨更好地了解和生成人类说话。 LLM 的核心特点包括自动化训练、大规模的数据训练、更强的上下文感知本领、多模态生成。一般 LLM 指参数数量超过 10 亿

作为一个曾经的 VUI 领域从业者，LLM 出现后非常想要弄清大模型对 VUI 领域的影响，于是有了此文。

本文部分内容由 GPT 协助完成。

技术原理

1. LLM

①定义和特点

LLM 是说话模型（Language Model）的一种，简单来说，LLM 通过进修大量的文本数据，例如文章、对话和网页等，来预测下一个词或下一段话的可能性，从而使计算机不妨更好地了解和生成人类说话。

LLM 的核心特点包括自动化训练、大规模的数据训练、更强的上下文感知本领、多模态生成。

一般 LLM 指参数数量超过 10 亿数量级的模型。

②GPT 和 LLM 的关系

GPT 是其中一种实现 LLM 大规模说话模型的技术，GPT 出现之前，LLM 并没有作为一个独立的概念被广泛讨论和使用。

2. GPT

①GPT 的训练思路——了解GPT为什么强大

GPT（Generative Pre-Training 生成式的预训练），G 是生成 Generative、P 是预训练（ Pre-trained）、T 是模型结构 Transformer。

总的来说，GPT 的训练经历了两个过程：

Part 1.无监督进修阶段

GPT 名字中的预训练（ Pre-trained）指的也就是这个阶段，之所以叫无监督，是在这个阶段 GPT 使用了大量未标注的文本数据来自我进修，这和传统的 NLP 领域研究方法完全不同。

这种方法使得 GPT 模型可以从大量的无标注数据中进修说话的潜在模式和规律：比如可以进修文本的上下文信息，构建单词之间的语义关系，并在训练过程中自适应地优化模型参数，从而使模型具有更好的文本生成本领。

Part 2.有监督微调

这个阶段可以了解为通过给到 GPT 正确的对话模板（包含案例和执行结果）让 GPT 通过案例来进修，并且形成回答。可以使得 GPT 的本领分化到不同的技能树。

在该阶段需要注意避免过度依赖模板训练，同时引入多样性的数据和技能树，从而使得 GPT 在生成回答时更加灵活和多样化。

②GPT 是如何生成回答的？

这里有个重要的概念：自回归生成

这是指模型根据输出的前文和已生成的部分文本来预测下一个单词或字符，不断重复这个过程直到生成整个文本。这个方法又被叫做“生成式”，每次选取生成概率最高的那个字出现。

后文在介绍 Google 的说话模型 Bert 时会提到，这种自回归生成的方式是导致 GPT 最终超越 Bert 的关键。

③GPT 神奇的出现本领

出现使 GPT 模型可以自动生成具有说话上下文和逻辑关系的连贯文本，这些文本在预训练时并没有直接指定，而是通过模型自身的进修和推理得到的。这被众多文章称为：“乌鸦”本领（文章最后有附图解释乌鸦和鹦鹉的故事）

GPT 3 已经出现了上下文了解本领、一定的泛化本领。使得模型无需经过重新训练就可以了解新的数据。具体来说，当 GPT 3 在处置惩罚一段文本时，它不仅会考虑到这段文本本身的含义和语法结构，还会同时考虑到该文本所处的上下文环境，例如前面的文本内容、所属的领域、用户身份等。从而更好地了解这段文本的含义和目的，并且在生成相应的回应时更加精准地表达出自己的意思。

GPT 3.5 相比 3.0 增加了代码训练及指令微调，并且出现了使用思维链（chain-of-thought）进行复杂推理的本领。

出现究竟是如何出现的，目前并没有确切的答案，更多的猜测是当数据量达到一定规模后，由于模型进修到了足够多的样本案例，逐渐出现的。

④GPT-4

官方由于竞争以及安全方面考虑，并未公布具体细节，从本领上来讲，GPT-4 可以接受图像和文本作为输出，并产生文本输出。可以处置惩罚更长的提示和对话，并且不会出现太多的事实错误。并且在代码风格、输出格式和变量命名方面表现更好。

关于这部分，可以在知乎成绩下看到 GPT-4 的本领已经达到了非常惊人的程度： https://www.zhihu.com/question/589641558

⑤GPT 和 Chat GPT 是一回事吗？

不是。ChatGPT 是基于 GPT 技术构建的专为聊天应用程序设计的说话模型，但已经过微调以了解人类命令指令的含义，例如了解上下文、识别意图和提供适当的响应。

⑥GPT 解决了传统模型的哪些成绩

更强上下文了解本领

GPT 在出现阶段进修文本的上下文信息，构建单词之间的语义关系。

更强的泛化本领

传统的说话模型通常采用有监督进修的训练方式。这种方法需要大量的标注数据作为训练模型的输出。这种方式会导致模型「泛化」本领不佳。

泛化成绩是指机器进修模型在进修和了解说话时，只能记忆和进修到训练数据中出现的特定单词、短语、句子和语法规则，而无法将这些知识推广到新的、类似但不完全相同的情境中。

GPT 通过预训练得到的出现本领使其具有很好的泛化本领，可以处置惩罚各种类型和领域的义务。另外 GPT 的训练方法是单字猜测的方式预测下一个字，只需要积累不同场景下一个字的通用规律即可，无需遇到新的数据时往往需要重新训练。

减少人工成本

相比传统模型需要手工设计特征，GPT 在预训练过程中自动从大量数据中进修到了丰富的说话知识和规律，从而使得在义务微调阶段无需进行特征工程。这一点大大简化了模型的构建过程，减少了人工参与和主观判断的成本。

此外 GPT 主要使用大规模无监督的预训练，减少了对标注数据的依赖。

3. 一些需要解释的名词

也许你会经常在其他文章中看到他们但是不了解其中的含义：

①AGI 人工通用智能

也称为强人工智能，它是指一种具备像人类一样的进修、推理、思考、决策和自我发展等本领的人工智能系统。与目前的人工智能系统相比，AGI 具有更广泛的适用性和更高的智能水平，不妨处置惩罚各种复杂的义务和成绩，并不妨持续地自我进修和进化，从而实现真正的人类水平智能。目前还没有任何一个人工智能模型不妨达到真正的 AGI 水平。

Transformer

是一种基于注意力机制（attention mechanism）的序列到序列（sequence-to-sequence）模型。

传统的序列到序列模型（如循环神经网络 RNN）存在着信息传递效率低、难以并行计算等成绩，而 Transformer 通过引入自注意力机制来解决这些成绩。自注意力机制允许模型根据序列中的其他位置调整每个位置的表示，从而提高模型对上下文的了解本领。与 RNN 相比，Transformer 不妨更好地处置惩罚长序列，并且可以使用并行计算来提高训练速度。

Attention mechanism 注意力机制

是一种用于机器进修和自然说话处置惩罚的技术，它可以根据输出的信息动态地将注意力集中在不同的位置，从而使得模型不妨更好地了解和处置惩罚输出的序列数据。

sequence-to-sequence 序列到序列

是一种常见的神经网络架构，用于将一个序列映射到另一个序列。它由两个主要组件组成：编码器和解码器。编码器将输出序列转换为一个向量表示，解码器则将这个向量解码成目标序列。在这个过程中，模型会进修到输出序列和输出序列之间的对应关系，从而实现转换。

In-Context Learning 上下文了解

指机器进修模型可以根据上下文信息，对相同的词汇在不同上下文中进行不同的了解和处置惩罚，以更准确地对文本进行了解和生成。

Few Shot

在给定非常少的样本（通常是几个或者十几个）的情况下，让模型学会针对该领域的说话了解或生成义务。具体来说，就是通过给模型提供一些示例，让模型在进修这些示例的基础上，不妨根据给定的提示或成绩进行推理或生成相应的文本。

Zero Shot

是指在没有接受任何训练的情况下，让模型对没有出现在训练集中的义务进行推理或生成相应的文本。具体来说，就是通过给模型提供一些与目标义务相关的信息，例如一些关键词或描述，让模型不妨推断出目标义务所需要的信息并生成相应的文本。

Few Shot、Zero Shot 这两个概念主要是为了描述说话模型的泛化本领，也就是模型在进修过一些示例后能否推广到新的义务或成绩。在实际应用中，这种泛化本领非常重要，因为很难为每个义务或成绩都提供大量的样本进行训练。这两个方法通常适合拥有较大数据集的模型，比如 GPT。

Fine tuning 微调

在预训练模型的基础上使用标注数据进行微调，以适应特定义务，通常适合较小数据集的模型，比如 Bert。

Prompt

{{userData.name}}已认证

想深度掌握AI？先搞懂说话大模型：技术原理

技术原理

ControlNet 重大革新！直接复制图象风格，可配合 SDXL 大模型运用

Midjourney实战教程！如何用AI快速生成好看的真人照片？

刚刚，AI颠覆物理模拟：一句话精准仿真，学术圈半壁江山联手耗时24个月研究成果

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

2024年AI 编程现在可以做到什么程度？

腾讯云 ES：一站式 RAG 方案，开启智能搜索新时代

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！

抢跑OpenAI！谷歌Gemini 2.0震撼登场：全面转向Agent，多模态输入输出，免费随便玩