元象发布XVERSE-MoE-A4.2B大模型 , 选择业界最前沿的混合大师模型架构 (Mixture of Experts),激活参数4.2B,效果即可媲美13B模型。该模型全开源,无条件免费商用,让海量中小企业、研究者和开发者可在元象高功能“全家桶”中按需选用,推动低成本部署。
GPT3、Llama与XVERSE等主流大模型发展遵循规模理论(Scaling Law), 在模型训练和推理的过程中,单次前向、反向较量争论时,所有参数都被激活,这被称为稠密激活 (densely activated)。 当 模型规模增大时,算力成本 会急剧升高。
越来越多的研究人员认为, 稀疏激活 (sparsely activated)的MoE模型,在增大模型规模时,可不显著增加训练和推理的较量争论成本, 是一种更有效的方法 。由于技能较新,目前国内大部分开源模型或学术研究 尚未普及 。
在元象自研中,用相同语料训练2.7万亿token,XVERSE-MoE-A4.2B实际激活参数量4.2B, 功能“跳级”超越 XVERSE-13B-2, 仅用30%较量争论量,并减少50%训练时间 。与多个开源标杆Llama相比,该模型大幅超越Llama2-13B、接近Llama1-65B(下图)。
查看多项权威评测
开源上,元象大模型“全家桶”持续迭代,将 国产开源引领至国际一流水平 。应用上,元象 发挥AI+3D共同技能共同优势 ,推出大模型、3D空间、AIGC工具等一站式解决方案,赋能文娱、旅游、金融等各行各业,在智能客服、创意体验、提效工具等多场景打造领先用户体验。
MoE技能自研与创新
MoE是目前业界最前沿的模型框架,由于技能较新,国内开源模型或学术研究尚未普及。元象自主研发了MoE的高效训练和推理框架,并在三个方向创新:
功能上,针对MoE架构中共同大师路由和权重较量争论逻辑,研发一套高效融合算子,显著提升了较量争论效率;针对MoE模型高显存使用和大通信量挑战,计划出较量争论、通信和显存卸载的重叠操作,有效提高整体处理吞吐量。
架构上,与传统MoE(如Mixtral 8x7B)将每个大师大小等同于尺度FFN不同,元象选择更细粒度的大师计划,每个大师大小仅为尺度FFN的四分之一,提高了模型灵活性与功能;还将大师分为同享大师(Shared Expert)和非同享大师(Non-shared Expert)两类。同享大师在较量争论过程中始终保持激活状态,而非同享大师则根据需要选择性激活。这种计划有利于将通用知识压缩至同享大师参数中,减少非同享大师参数间的知识冗余。
训练上,受Switch Transformers、ST-MoE和DeepSeekMoE等启发,元象引入负载均衡损失项,更好均衡大师间的负载;选择路由器z-loss项,确保训练高效和稳定。
架构选择则经过一系列对照试验得出(下图),在 试验3与试验2中,总参数量和激活参数量相同,但前者的细粒度大师计划带来了更高的功能表现。试验4在此基础上,进一步划分同享和非同享两类大师,使得效果显著提升。试验5探究了大师大小等于尺度FFN时,引入同享大师的做法,效果不甚理想。
对照试验计划方案
综合试验结果(下图),元象最终选择试验4对应的架构设置。展望未来,新近开源的Google Gemma与X(前Twitter)Grok等项目选择了比尺度FFN更大的设定,元象也将在后续继续深入探究相关方向探究研,保持技能引领性。
对照试验效果
免费下载大模型
Hugging Face:https://huggingface.co/xverse/XVERSE-MoE-A4.2BModelScope魔搭:https://modelscope.cn/models/xverse/XVERSE-MoE-A4.2BGithub:https://github.com/xverse-ai/XVERSE-MoE-A4.2B问询发送:[email protected]