PRO | 为什么鉴于 MoE 的大模型更值得关注?

2023年,几乎 AI 的每一个领域都在以前所未有的速度进化,同时,AI也在不断地推动着具身智能、自动驾驶等关键赛道的技术边界。多模态趋势下,Transformer 作为 AI 大模型主流架构的局面是否会撼动?为何探索鉴于 MoE (大师混同)架构的大模型成为业内新趋势?大型视觉模型 (LVM)能否成为通用视觉的新突破?...我们从过去的半年发布的2023年机器之心PRO会员通讯中,挑选了 10 份针对以上领域技术趋势、产业变革进行深入剖析的专题解读,助您在新的一年里为大展宏图做好准备。本篇解读来自2023年 Wee

2023年,几乎 AI 的每一个领域都在以前所未有的速度进化,同时,AI也在不断地推动着具身智能、自动驾驶等关键赛道的技术边界。

多模态趋势下,Transformer 作为 AI 大模型主流架构的局面是否会撼动?为何探索鉴于 MoE (大师混同)架构的大模型成为业内新趋势?大型视觉模型 (LVM)能否成为通用视觉的新突破?…

我们从过去的半年发布的2023年机器之心PRO会员通讯中,挑选了 10 份针对以上领域技术趋势、产业变革进行深入剖析的专题解读,助您在新的一年里为大展宏图做好准备。

本篇解读来自2023年 Week50 业内通讯 👇PRO | 为什么鉴于 MoE 的大模型更值得关注?

专题解读 为什么鉴于 MoE 的大模型更值得关注?

日期:12 月 12 日

事件:Mistral AI 开源了鉴于 MoE(Mixture-of-Experts,大师混同)架构的模型 Mixtral 8x7B,其功能达到 Llama 2 70B 和 GPT-3.5 的水平"的事件进行延展解读。

首先,弄清楚 MoE 是什么及其来龙去脉

1、概念:

MoE(Mixture of Experts)是一种混同模型,由多个子模型(即大师)组成,每一个子模型都是一个局部模型,专门解决输出空间的一个子集。MoE 的核心思想是使用一个门控收集来决定每一个数据应该被哪个模型去训练,从而减轻不同类型样本之间的干扰。

2、主要构成:

混同大师模型技术(MoE)是由大师模型和门控模型组成稠密门控制的深度进修技术。MoE 通过门控收集实现任务/训练数据在不同大师模型间的分配,让每一个模型专注解决其最擅长的任务,进而实现模型的稠密性。

① 在门控收集的训练中,每一个样本都会被分配到一个或多个大师中;

② 在大师收集的训练中,每一个大师都会被训练以最小化其分配给它的样本的误差。

3、MoE 的「前身」:

MoE 的「前身」是集成进修(Ensemble Learning)。集成进修是通过训练练多个模型(基进修器)未解决同一问题,并且将它们的预测结果简单组合(例如投票或平均)。集成进修的主要目标是通过减少过拟合,提高泛化能力,以提高预测功能。常见的集成进修方法包括 Bagging,Boosting 和 Stacking。

4、MoE 历史来源:

① MoE 的根源可以追溯到 1991 年的论文《 Adaptive Mixture of Local Experts》。这个想法与集成方法类似,目的是为由不同子收集组成的系统提供一种监督过程,每一个单独的收集或大师都专门解决输出空间的不同区域。通过门控收集确定每一个大师的权重。在训练过程中,大师和门控都会被训练。

② 在 2010 年至 2015 年期间,两个不同的研究领域对 MoE 的进一步发展做出了贡献:

一是大师作为组件:在传统的 MoE 设置中,整个系统包括一个门控收集和多个大师。MoEs 作为整个模型已经在支持向量机、高斯过程和其他方法中进行了探索。《Learning Factored Representations in a Deep Mixture of Experts》工作探索了 MoEs 作为更深层收集组件的可能性。这使得模型可以同时变得庞大和高效。

另一个是条件计算:传统的收集通过每一层解决所有输出数据。在这个时期,Yoshua Bengio 研究了根据输出 token 动态激活或停用组件的方法。

③ 由此,人们开始在自然语言解决的背景下探索大师混同模型。在论文《Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer》中通过引入稠密性,将其扩展到了一个 137B LSTM,从而实现了高规模下的快速推理。

为什么鉴于 MoE 的大模型值得关注?

1、通常来讲,模型规模的扩展会导致训练成本显著增加,计算资源的限制成为了大规模麇集模型训练的瓶颈。为了解决这个问题,鉴于稠密 MoE 层的深度进修模型架构被提出。

2、稠密混同大师模型(MoE)是一种特殊的神经收集架构,可以在不增加推理成本的情况下,为大型语言模型(LLM)增加可进修的参数,而指令调优(instruction tuning)则是一种训练 LLM 遵循指令的技术。

3、MoE+指令微调技术的结合,可大幅度提升语言模型的功能。2023 年 7 月,谷歌、UC 伯克利和 MIT 等机构的研究者发表了论文《Mixture-of-Experts Meets Instruction Tuning: A Winning Combination for Large Language Models》,证明了混同大师模型(MoE)与指令调优的结合能够让大型语言模型(LLM)的功能大幅提升。

① 具体来说,研究者在一组经过指令微调的稠密混同大师模型 FLAN-MOE 中,使用稠密激活 MoE,并用 MoE 层替换 Transformer 层的前馈组件,以提供更优的模型容量与计算灵活性;其次,在 FLAN 集合数据集的基础上对 FLAN-MOE 进行微调。

② 研究者鉴于上述方法研究在没有指令调优的情况下在单个下游任务进行直接微调,在指令调优后对下游任务进行 in-context 少样本或零样本泛化,以及在指令调优后对单个下游任务进行进一步微调等三种实验设置下 LLM 的功能区别。

③ 实验结果表明,如果不使用指令调优,MoE 模型的功能通常不如与之计算能能力相当的麇集模型。但当结合指令调优时,情况发生了变化。指令调优后的 MoE 模型(Flan-MoE)在多个任务上的表现超越了更大的麇集模型,即使 MoE 模型的计算成本只是麇集模型的三分之一。与麇集模型相比。MoE 模型从指令调优中获得的功能提升更为显著,因此当考虑计算效率与功能时,MoE 将成为大型语言模型训练的有力工具。

4、此次,发布的 Mixtral 8x7B 模型同样采用了稠密混同大师收集。

① Mixtral 8x7B 是一个 decoder-only 的模型。前馈模块从 8 组不同的参数中进行选择。在每一层收集中,对于每一个 token,路由器收集选择 8 组中的两组(大师),来解决 token 并将其输出累加组合。

② Mixtral 8x7B 模型在大多数基准测试中均匹配或优于 Llama 2 70B 以及 GPT3.5,推理速度快了 6 倍。

MoE 的重要优势:稠密性是什么?

1、在传统的麇集模型中,对于每一个输出都需要在完整的模型中进行计算。在稠密混同大师模型中,解决输出数据时只有少数大师模型被激活成者使用,而大部分大师模型处于未被激活状态,这种状态便是「稠密「。而稠密性是混同大师模型的重要优点,也是提升模型训练和推理过程的效率的关键。

……

完整版专题解读「为什么鉴于 MoE 大模型更值得关注?」已上架至机器之心Pro会员收件箱新用户订阅限时特惠,单期低至 2.99 元!

Step 1:关注「机器之心PRO 会员」服务号

Step 2:进入服务号,点击菜单栏「收件箱」

Step 3:进入「收件箱」,点击「参考」板块,畅读往期所有专题解读PRO | 为什么鉴于 MoE 的大模型更值得关注?

给TA打赏
共{{data.count}}人
人已打赏
理论

大言语模型加速质料发现,普林斯顿大学团队利用 LLM 准确猜测晶体个性

2024-2-6 17:36:00

理论

以自监视方式去除荧光图象中的噪声,清华团队开发了空间冗余去噪Transformer要领

2024-2-16 16:20:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索