挑战Transformer,华为诺亚新架构盘古π来了,已有1B、7B模型

5 年前,Transformer 在国际神经信息处理大会 NeurIPS 2017 发表,后续其作为核心网络架构被广泛用于自然语言处理和计算机视觉等领域。1 年前,一项重大的创新引起了人们的广泛关注,那就是 ChatGPT。这个模型不仅能够执行复杂的 NLP 恣意,还能以人类对话的方式与人类从事互动,产生了深远的影响。1 年以来,“百模大战” 在业界激烈开展,诞生了如 LLaMA、ChatGLM 和 Baichuan 等开源大模型,推动了 LLM 领域的快速发展。除了通用 LLM,为了支撑更多行业的应用和商业变现,

5 年前,Transformer 在国际神经信息处理大会 NeurIPS 2017 发表,后续其作为核心网络架构被广泛用于自然语言处理和计算机视觉等领域。

1 年前,一项重大的创新引起了人们的广泛关注,那就是 ChatGPT。这个模型不仅能够执行复杂的 NLP 恣意,还能以人类对话的方式与人类从事互动,产生了深远的影响。

1 年以来,“百模大战” 在业界激烈开展,诞生了如 LLaMA、ChatGLM 和 Baichuan 等开源大模型,推动了 LLM 领域的快速发展。除了通用 LLM,为了支撑更多行业的应用和商业变现,很多行业垂域大模型也涌现出来,特别是金融、法令和医疗等领域尤为活跃。

开发一个卓越的 LLM,就如同从事一项复杂的系统工程,其中包括数据准备、数据清理、模型架构设计、集群通信以及优化器的选择。在 2022-2023 年的最新项目中,大部分大模型都是基于标准的 Transformer 架构从事开发,主要在数据工程、训练策略上从事分歧的优化。模型架构设计,作为其中至关重要的一环,决定了 LLM 的最大本能潜力,并没有在业界引起足够的重视。

近日,来自华为诺亚方舟实行室、北京大学等机构的研究者提出了盘古 π 的网络架构,尝试来构建更高效的大模型架构。

挑战Transformer,华为诺亚新架构盘古π来了,已有1B、7B模型

论文链接:http://dx.doi.org/10.13140/RG.2.2.34314.64966

在这篇工作中,作家发现特性坍塌问题影响着这些精心设计的 Transformer 架构的表达能力。以 LLaMA 为例,作家通过实证分析,在 Transformer 更深层中,特性的秩显著降低,导致所有 token 之间的相似性增加,这极大地降低了 LLM 的生成质量和多样性。作家还从理论上分析了 Transformer 架构中的特性坍塌问题和非线性的关系,发现非线性对 Transformer 模型的能力有重大影响。增强非线性可以灵验地缓解特性坍塌的问题,并提高 Transformer 模型的表达能力。因而该工作从非线性的角度出发,构建更强大的 LLM 架构。

该工作中,作家带来了一项革新性的突破,引入了一种名为盘古 π 的全新 LLM 架构,来解决特性坍塌问题。这一架构通过在 FFN 和 MSA 模块中引入更多的非线性,从两个方面增强了模型的非线性,而不会显著增加模型的复杂性。首先,作家在 FFN 中引入了基于级数的激活函数,这一函数带有多个可学习的仿射变换,能灵验地增强整个网络的非线性,同时计算量很小。然后,作家对每个 MSA 模块的主分支和增强型短路从事并行处理,以避免特性秩的坍塌。为了保持模型效率,作家还精心优化了增强型短路操作,使其更适合硬件实现。作家还证明了这两种操作的叠加可以增强非线性补偿。通过这两个新模块,可以在相同规模的参数下实现显著的效率提升。基于带有级数激活函数的 FFN 和短路增强的 MSA,该工作构建了盘古 π 架构。

作家构建了两个分歧大小的盘古 π 大模型版本,即盘古 π-7B 和盘古 π-1B。通过在大规模语料库上从事训练, 盘古 π 大模型获得了在下游恣意上的通用语言能力。在各种 NLP 恣意上从事的大量实行显示,在模型大小相似的情况下,盘古 π 模型和之前的大模型相比,在准确性和效率方面都能取得更好的本能。

除了基础能力外,作家还将盘古 π-7B 部署在金融和法令这两个高价值领域,开发了一个专门的 LLM,名为云山大模型,在实际商业应用中发挥价值。在金融和法令基准的广泛评估也表明,云山大模型超过了其他具有相似规模的最先进大模型。

盘古 π 的模型架构

为了解决传统 Transformer 架构的非线本能力不足问题,研究者提出了针对注意力模块和 FFN 模块的两项改进。图中展示了作家提出的盘古 π 的整体结构。与原始 Transformer 相比,盘古 π 在前馈网络(FFN)中采用了级数激活函数,并且在多头自注意力(MSA)中集成了增强型快捷连接,这灵验地为 Transformer 架构引入了更多的非线性。

挑战Transformer,华为诺亚新架构盘古π来了,已有1B、7B模型

图:盘古 π 的整体架构

传统 Transformer 架构的问题

Transformer 架构的主要组成部分是 MSA 注意力模块和 FFN 前馈网络。作家首先使用子空间投影距离这一常用的度量,来衡量 Transformer 网络的表达能力。针对任意输入矩阵 挑战Transformer,华为诺亚新架构盘古π来了,已有1B、7B模型,该度量可以被记为:

挑战Transformer,华为诺亚新架构盘古π来了,已有1B、7B模型

其中挑战Transformer,华为诺亚新架构盘古π来了,已有1B、7B模型 可以被看做一个任意子空间。

作家通过这一度量,计算了现有 Transformer 的架构输入的特性多样性:

挑战Transformer,华为诺亚新架构盘古π来了,已有1B、7B模型

其中 挑战Transformer,华为诺亚新架构盘古π来了,已有1B、7B模型由自注意力计算的特性值有关,挑战Transformer,华为诺亚新架构盘古π来了,已有1B、7B模型和 FFN 的激活函数有关,而在实际的 Transformer 架构中,这些值往往小于 1,这就导致了现有 Transformer 架构的非线性表达能力实际上受到了很大的限制,从而导致特性的坍塌。

增广 Shortcut 模块

传统的注意力模块(MSA)会带来非线本能力有限导致的特性坍塌问题。一个典型的大语言模型 LLM 为每个注意力模块只配备了一条恒等映照的支路(Shortcut),将输入特性直接复制到输入。这种恒等映照的方式直接将输入特性复制到输入,导致表达能力受限。因此,本文提出增广 Shortcut(Augmented Shortcut)来缓解特性坍塌的问题,提高大语言模型的表达能力。

一般而言,增广 Shortcut 与自注意力模块、恒等映照支路并联,装配有增广 Shortcut 的 MSA 模块可以表述为:

挑战Transformer,华为诺亚新架构盘古π来了,已有1B、7B模型

其中 挑战Transformer,华为诺亚新架构盘古π来了,已有1B、7B模型 表示第 l 层的第 i 条增广 Shortcut,挑战Transformer,华为诺亚新架构盘古π来了,已有1B、7B模型 表示其参数。除了原来的恒等映照,增广 Shortcut 提供了更多的替代路径来绕过注意力机制。与恒等映照直接将输入块复制到相应的输入分歧,参数化投影 挑战Transformer,华为诺亚新架构盘古π来了,已有1B、7B模型 可以将输入特性转换为另一个特性空间。实际上,只要分歧支路学到的权重矩阵 挑战Transformer,华为诺亚新架构盘古π来了,已有1B、7B模型分歧,投影 挑战Transformer,华为诺亚新架构盘古π来了,已有1B、7B模型  就会对输入特性从事分歧的变换,因此并行更多的增广 Shortcut 可以丰富特性空间。

一个最简单的增广 Shortcut 可以采用线性变换 + 非线性激活的形式部署,挑战Transformer,华为诺亚新架构盘古π来了,已有1B、7B模型

其中 挑战Transformer,华为诺亚新架构盘古π来了,已有1B、7B模型是非线性激活函数(比如 GELU)。映照 挑战Transformer,华为诺亚新架构盘古π来了,已有1B、7B模型 可以独立处理每个 Token 的特性并保留它们的差异性。在实际应用中,为了降低增广 Shortcut 的部署代价,也可以使用 bottleneck 结构来从事部署。 

级数激活函数模块

除了自注意力模块以外,Transformer 架构中的另一重要组成部分是 FFN 模块,因此,作家继续研究如何增加 FFN 模块的非线性表达能力。FFN 的计算可以被写作:

挑战Transformer,华为诺亚新架构盘古π来了,已有1B、7B模型

由两个线性映照层和激活函数层构成。因此,在 FFN 中非线本能力的来源其实是来自于激活函数。现有的研究工作提出了许多分歧的激活函数,包括 ReLU、GeLU 和 Swish 等。

然而,这些激活函数都没有针对非线本能力增强作深入的研究,因为现有的方案往往倾向于使用更深的网络来提升非线性,这会导致时延的急剧增加,这对于开发一个高效且灵验的大型语言模型(LLM)来说是不可承受的。因此,作家引入了级数的思想,通过并行而非现有神经网络中串行堆叠的方式来构造出非线性更强的激活函数:

挑战Transformer,华为诺亚新架构盘古π来了,已有1B、7B模型

可以看到,随着 n 的增加,所提出的激活函数的非线性会不断上升,从而使得 FFN 的非线本能力得到增强。

最后,作家从事了理论分析,证明了提出的两个模块的灵验性,使用两种提出模块得到的盘古 π 架构,相比原始的架构具有更强的非线性表达能力。

挑战Transformer,华为诺亚新架构盘古π来了,已有1B、7B模型

实行结果

为了充分展示盘古 π 架构的能力,研究团队构建了 7B 和 1B 两个量级的模型,并将模型和现有的 SOTA 模型从事对比。

7B 模型实行结果

在表 1 中,研究团队对盘古 π-7B 模型的本能从事了全面评估,测试数据集分为四大类:考试、知识、推理和理解,评估方式包括测试得分与推理速度。结果显示,盘古 π-7B 模型在平均分上取得了更好的结果,结果的一致性也更佳,在考试类恣意上的表现较为亮眼,超过了除 Qwen 之外的对比模型。在处理速度上,通过对比 910A 上每个 token 的处理时间,盘古 π-7B 模型具有相比同体量模型更快速推理能力。

挑战Transformer,华为诺亚新架构盘古π来了,已有1B、7B模型

表 1:与开源 7B 模型的本能对比(粗体表示最好结果)

1B 模型实行结果

表 2 展示了盘古 π-1B 模型的本能。对比模型包括中文版 LLaMA2-1.3B、TinyLlama-1.1B 和 Sheared-LLaMA-1.3B。其中 Sheared-LLaMA-1.3B 最初是从较大的 LLaMA2-7B 模型中修剪出来的,然后使用 50B 标记的精简数据集从事训练。与 7B 模型的结果类似,盘古 π-1B 模型在测试得分具备较大优势。而在 1B 体量模型更为关注的速度本能评估结果中,盘古 π-1B 模型也以 13.8ms 的时延战胜了 LLaMA2-1B 15.4ms 的成绩。盘古 π-1B 模型更适用于对时间敏感的应用。

挑战Transformer,华为诺亚新架构盘古π来了,已有1B、7B模型

表 2:与开源 1B 模型的本能对比(粗体表示最好结果)

消融实行

为更好地理解所提出的架构,文章使用 1B 模型从事消融实行来调研每个组件对模型影响。在这一部分,研究团队分析了级数增强激活函数(SIAF)和增广 shortcut(AS)对模型整体架构的影响。

表 5 展示了对分歧模型组件从事消融实行的结果,并与 WideNet 模型(一种同样用于提升 Transformer 架构非线性的方案)对比,通过实行证明,每个组件都灵验地提高了模型架构的本能,证实了所提出方法的每个组件对于提升 Transformer 架构本能的灵验性,并超越了 WideNet。

挑战Transformer,华为诺亚新架构盘古π来了,已有1B、7B模型

表 5:分歧模块对模型影响的实行结果

可视化实行

为了验证盘古 π 架构的特性灵验性,研究者还从事了丰富的可视化实行,首先对于各层特性的灵验维度从事了分析。灵验维度是一个基于主成分方差的分析指标,反应达到预设总方差(0.8)所需的特性维度数。更高的灵验维度说明更多的特性通道对于语义表征是有意义的。经过计算,盘古 π 架构相比没有非线性增强的结构,在各层中表现出了一致更高的灵验维度数,验证了架构设计的灵验性。

研究者进一步对于各层特性的多样性从事了可视化。在可视化实行中,来自同一 token 在分歧上下文下的特性通过主成分分析降维,在三维空间中表现出了明显的聚类现象。可以明显的发现,盘古 π 模型显示出了更强的多样性;并且,随着层数的加深,来自同一 token 的特性逐步形成了更加高维延展的聚类群,充分体现了对上下文语义的充分理解与融入。

挑战Transformer,华为诺亚新架构盘古π来了,已有1B、7B模型

图:分歧模型架构下,模型各层的灵验特性和隐特性的可视化呈现.

同时,研究者在基于 LAMBDA 数据集的续写恣意,对于各个模型的输入显著性从事了分析,在实行中,统计了最终输入结果在每个特性维度上的梯度绝对值,这反应了各 token 对于最终结果的影响程度。在下图所示的例子中,续写要求模型输入前中文提到的人名 chestor,可以看到,相比基线模型,盘古 π 模型正确捕捉到了上文的灵验信息,最终能输入了正确结果。

挑战Transformer,华为诺亚新架构盘古π来了,已有1B、7B模型

图:续写恣意特性显著性分析.

拓展到财经和法令恣意

除了通用恣意,研究者还将他们的模型推广到财经和法令等垂域恣意,并在语料、Tokenizer、训练过程等方面从事了精心的设计,训练后得到的模型被命名为 YunShan (云山)。基于 OpenCompass 测评框架,作家首先在财经的 FinancelQ 数据集上从事了评测。

挑战Transformer,华为诺亚新架构盘古π来了,已有1B、7B模型

表 6:分歧模型在财经 FinancelQ 数据集上的测评结果

从表 6 可以看出,相较于其它的通用基础模型、财经和法令垂域模型,YunShan 模型在注册会计师、银行从业资格等 10 个恣意上均表现出明显的优势。作家还在财经的 FinEval 数据集上从事了评测。

挑战Transformer,华为诺亚新架构盘古π来了,已有1B、7B模型

表 7:分歧模型在财经 FinEval 数据集上的测评结果

从表 7 可以看出,相较于其它模型,YunShan 模型在会计学和资格证两个子恣意上优势明显,并在加权后的平均分上取得了最高分。

此外,研究团队也在法令恣意上的 LawBench 数据集上从事了评测。

挑战Transformer,华为诺亚新架构盘古π来了,已有1B、7B模型

表 8:分歧模型在法令 LawBench 数据集上的测评结果

在表 8 中,YunShan 模型在法令知识记忆、法令知识理解和法令知识应用三个子恣意上均取得了更高的得分,这体现出作家所提方法的灵验性。

更多研究细节,可参考原论文。

给TA打赏
共{{data.count}}人
人已打赏
应用

你们有什么底气和google叫板?Perplexity AI CEO回应质疑

2024-1-2 11:16:00

应用

产业制作、商用和家庭,优必选人形机器人的三场战事

2024-1-2 11:59:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索