多头混合专家

微软让MoE长出多个头,大幅提升专家激活率

MH-MoE 能优化几乎所有专家,实现起来非常简单。混合专家(MoE)是个好方法,支持着现在一些非常优秀的大模型,比如谷歌家的 Gemini 1.5 以及备受关注的 Mixtral 8x7B。稀疏混合专家(SMoE)可在不显著增加训练和推理成本的前提下提升模型的能力。比如 Mixtral 8×7B 就是一个 SMoE 模型,其包含 8 个专家(共 7B 参数),而其表现却可以超过或比肩 LLaMA-2 70B 和 GPT-3.5。但是,它也有两个问题。一是专家激活率低 —— 也就是搞不好会出现下图这种情况:具体来说
  • 1