增大模型依然有用,DeepMind用2800亿参数的Gopher,测试说话系统极限

DeepMind 连发三篇论文,全面阐述大规模说话模型依然在进展之中,能力也在继续增强。近年来,国内外各大 AI 巨头的大规模说话模型(large language model,LLM)一波接着一波,如 OpenAI 的 GPT-3、智源研讨院的悟道 2.0 等。大模型已然成为社区势不可挡的发展趋势。然而,当前说话模型存在着一些问题,比如逻辑推理较弱。那么,我们是否可以仅通过添加更多数据和算力的情况下改观这些问题呢?或者,我们已经达到了说话模型相关技术范式的极限?今日,DeepMind「一口气」发表了三篇论文,目的

DeepMind 连发三篇论文,全面阐述大规模说话模型依然在进展之中,能力也在继续增强。

近年来,国内外各大 AI 巨头的大规模说话模型(large language model,LLM)一波接着一波,如 OpenAI 的 GPT-3、智源研讨院的悟道 2.0 等。大模型已然成为社区势不可挡的发展趋势。

然而,当前说话模型存在着一些问题,比如逻辑推理较弱。那么,我们是否可以仅通过添加更多数据和算力的情况下改观这些问题呢?或者,我们已经达到了说话模型相关技术范式的极限?

今日,DeepMind「一口气」发表了三篇论文,目的之一就是解决当前说话模型存在的问题。DeepMind 得出的结论是进一步扩展大规模说话模型应该会带来大量的改观。此前在一次电话简报会上,DeepMind 研讨科学家 Jack Rae 表示,「这些论文的一个关键发现是大规模说话模型依然在进展之中,能力也在继续增强。这个领域并没有停滞不前。」

增大模型依然有用,DeepMind用2800亿参数的Gopher,测试说话系统极限

博客地址:https://deepmind.com/blog/article/language-modelling-at-scale

这三篇论文的主题分别如下:

一个具有 2800 亿参数的 transformer 说话模型 Gopher;

说话模型带来的道德和社会风险及危害;

通过检索数万亿 token 来改观说话模型的新格式 RETRO。

本文机器之心将对大模型 Gopher 和 RETRO 模型从事简单介绍。

Gopher:2800 亿参数,接近人类阅读理解能力

DeepMind 用一篇 118 页的论文介绍了全新的说话模型 Gopher 及其 Gopher 家属,论文作者也差不多达到 100 人。

增大模型依然有用,DeepMind用2800亿参数的Gopher,测试说话系统极限

论文地址:https://storage.googleapis.com/deepmind-media/research/language-research/Training%20Gopher.pdf

在探索说话模型和开发新模型的过程中,DeepMind 探索了 6 个不同巨细的 Transformer 说话模型,参数量从 4400 万到 2800 亿不等,架构细节如表 1 所示。其中参数量最大的模型被命名为 Gopher,具有 2800 亿参数,他们并将整个模型集称为 Gopher 家属。这些模型在 152 项不同的义务上从事了评价,在大多数情况下实现了 SOTA 机能。此外,DeepMind 还提供了对训练数据集和模型行为的整体分析,涵盖了模型规模与偏差等。最后,DeepMind 讨论了说话模型在 AI 安全和减轻下游危害方面的应用。

增大模型依然有用,DeepMind用2800亿参数的Gopher,测试说话系统极限

DeepMind 选用自回归 Transformer 架构为基础,并从事了两处修改:将 LayerNorm 替换为 RMSNorm ;运用相对位置编码而不是绝对位置编码。此外 DeepMind 运用拥有 32000 个词汇量的 SentencePiece 对文本从事 token 化,并运用字节级 backoff 来支持开放词汇模型。

训练

DeepMind 运用 Adam 优化器,所有模型的训练共有 3000 亿个 token,选用 2048token 上下文窗口格式。在训练的前 1500 step 中,学习率从 10^−7 增加到最大,之后选用 cosine schedule 再将学习率衰减到 1/10。随着模型尺寸的增加,研讨者会相应的降低最大学习率并增加每 batch 中的 token 数量,如表 1 所示。

DeepMind 结合了 bfloat16 数字格式来减少内存并增加训练吞吐量。小于 7.1B 的模型运用混合精度 float32 参数和 bfloat16 激活从事训练,而 7.1B 和 280B 运用 bfloat16 激活和参数。

训练基础设施

DeepMind 选用 JAX 来构建训练和评价的代码库。特别地,该研讨运用 JAX 的 pmap 转换来提高数据和模型并行性,所有模型的训练和评价是在 TPUv3 芯片上从事的。此外,DeepMind 还选用了优化器状态分区、模型并行性和 rematerialisation 来划分模型状态并减少激活,因此这种格式适合 TPU 内存。

DeepMind 发现 TPUv3 具有快速跨芯片通信的能力,因此数据、模型并行性在 TPUv3 上的开销都很低,并且在训练 Gopher 时仅产生 10% 的开销。因此,该研讨发现,在训练规模超过 1024-chip pod 之前,TPU 无需从事 pipelining 操作,这大大简化了中型模型的训练。

增大模型依然有用,DeepMind用2800亿参数的Gopher,测试说话系统极限

训练数据集

DeepMind 在 MassiveText 上训练 Gopher 模型家属,MassiveText 包括网页、书籍、新闻和代码等文本,包含约 23.5 亿个文档, 10.5 TB 的文本量。表 2 详细列出了该数据集。

增大模型依然有用,DeepMind用2800亿参数的Gopher,测试说话系统极限

结果

DeepMind 深入调查了这些不同巨细模型的优缺点,强调扩展模型会提高其机能——例如,在阅读理解、事实核查和有害说话识别等领域。

该研讨在 152 个义务中对 Gopher 及其家属模型从事了机能评价。DeepMind 将这些结果与 SOTA 说话模型(LM 机能的 124 个义务)、运用特定义务数据的监督格式、人类专家机能从事了比较。以下摘取了一些主要结果。

例如,在逻辑推理和常识性义务中的机能比较:

增大模型依然有用,DeepMind用2800亿参数的Gopher,测试说话系统极限

按类别划分的海量多义务说话理解 (MMLU) 基准测试机能。Gopher 在几个类别上优于之前的工作。

在这项研讨中,研讨者发现 Gopher 在一些关键义务上的能力超过了当前的说话模型,包括大规模多义务说话理解 (MMLU) 基准。在一项义务上,Gopher 展现出了重大进展,媲美人类专家的水准。

除了对 Gopher 从事定量评价外,DeepMind 的研讨者还通过直接互动的方式对模型从事了测验。结果表明,当 Gopher 被提示从事对话互动 (比如在聊天中) 时,该模型有时可以表现出令人惊讶的连贯性。

增大模型依然有用,DeepMind用2800亿参数的Gopher,测试说话系统极限

在这里,Gopher 可以讨论细胞生物学并提供正确的引用来源,即使此前尚未从事过具体对话的微调。这项研讨还详细描述了几种不同模型巨细的故障模式,其中包括重复倾向、常规偏见反映以及错误信息传播。

增大模型依然有用,DeepMind用2800亿参数的Gopher,测试说话系统极限

对说话模型基准测试,DeepMind 在图 2 中扩展了 Gopher 与当前 178B SOTA 模型 Jurassic-1 和 175B GPT-3 的相对机能结果。结果表明 Gopher 在 19 项义务中有 8 项没有超过 SOTA 技术,尤其是在 Ubuntu IRC 和 DM Mathematics 上表现不佳。 

增大模型依然有用,DeepMind用2800亿参数的Gopher,测试说话系统极限

如图 4 所示, Gopher 在绝大多数义务上都表现出了机能提升——只有在 16 个义务上(总共 152 个义务)的机能提升为零。相比之下,在 57 个义务有小幅改观,相对机能提升高达 25%,在 79 个义务有超过 25% 的显着改观。

增大模型依然有用,DeepMind用2800亿参数的Gopher,测试说话系统极限

这种类型的分析是重要的,理解和记录故障模式可以深入了解大说话模型是如何产生下游危害的,也提示了研讨中的缓解格式应该集中在哪些方面来解决这些问题。

RETRO:带有互联网规模检索的高效训练

另一篇论文是 DeepMind 在 Gopher 的基础上,提出了一种改观的说话模型架构。该架构降低了训练的资源成本,并使模型输出更容易追踪到训练语料库中的来源。

增大模型依然有用,DeepMind用2800亿参数的Gopher,测试说话系统极限

论文地址:https://storage.googleapis.com/deepmind-media/research/language-research/Improving%20language%20models%20by%20retrieving.pdf

具体而言,该研讨提出了一种检索增强的自回归说话模型 Retrieval-Enhanced Transformer (RETRO) ,运用互联网规模的检索机制从事预训练。受大脑在学习时依赖专用记忆机制的启发,RETRO 能够有效地查询文本段落以改观其预测。通过将生成的文本与 RETRO 生成所依赖的段落从事比较,可以解释模型做出某些预测的原因以及它们的来源。此外,研讨者还发现该模型能够获得与常规 Transformer 相当的机能,参数少一个数量级,并在多个说话建模基准上获得 SOTA 机能。

增大模型依然有用,DeepMind用2800亿参数的Gopher,测试说话系统极限

该研讨设计的检索增强架构能够从具有数万亿个 token 的数据库中检索。为此,该格式对连续 token 块(chunk)从事检索,而非单个 token,这样借助线性因子减少了存储和计算需求。

该格式首先构建了一个键值对(key-value)数据库,其中值存储原始文本 token 块,键是 frozen Bert 嵌入(Devlin et al., 2019)。通过运用 frozen 模型来避免在训练期间定期重新计算整个数据库的嵌入。

然后将每个训练序列分成多个块,这些块通过从数据库中检索到的 K 最近邻从事扩充。编码器 – 解码器架构将检索块集成到模型的预测中,RETRO 的架构如下图所示。

增大模型依然有用,DeepMind用2800亿参数的Gopher,测试说话系统极限

如下图所示,研讨者用实验数据表明该格式能够很好地适应不同的模型巨细和数据集巨细。

增大模型依然有用,DeepMind用2800亿参数的Gopher,测试说话系统极限

该研讨还在问答义务上评价比较了 RETRO 模型和其他几种模型的机能,结果如下表所示。

增大模型依然有用,DeepMind用2800亿参数的Gopher,测试说话系统极限

文章部分内容来源:https://www.theverge.com/2021/12/8/22822199/large-language-models-ai-deepmind-scaling-gopher

给TA打赏
共{{data.count}}人
人已打赏
AI

时隔近50年,剑桥团队首次检测到量子自旋液体,研讨登上《Science》

2021-12-9 9:41:00

AI

INDEMIND: 打造标准化机器人AI方案,行业关键技能供应商价值凸显

2021-12-9 19:37:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索