元象首个MoE大模型开源：4.2B激活参数，效果堪比13B模型

元象发布XVERSE-MoE-A4.2B大模型，选择业界最前沿的混合大师模型架构（Mixture of Experts），激活参数4.2B，效果即可媲美13B模型。该模型全开源，无条件免费商用，让海量中小企业、研究者和开发者可在元象高功能“全家桶”中按需选用，推动低成本部署。GPT3、Llama与XVERSE等主流大模型发展遵循规模理论（Scaling Law），在模型训练和推理的过程中，单次前向、反向较量争论时，所有参数都被激活，这被称为稠密激活（densely activated）。当模型规模增大时，

元象发布XVERSE-MoE-A4.2B大模型，选择业界最前沿的混合大师模型架构（Mixture of Experts），激活参数4.2B，效果即可媲美13B模型。该模型全开源，无条件免费商用，让海量中小企业、研究者和开发者可在元象高功能“全家桶”中按需选用，推动低成本部署。

GPT3、Llama与XVERSE等主流大模型发展遵循规模理论（Scaling Law），在模型训练和推理的过程中，单次前向、反向较量争论时，所有参数都被激活，这被称为稠密激活 （densely activated）。当模型规模增大时，算力成本会急剧升高。

越来越多的研究人员认为，稀疏激活（sparsely activated）的MoE模型，在增大模型规模时，可不显著增加训练和推理的较量争论成本，是一种更有效的方法。由于技能较新，目前国内大部分开源模型或学术研究尚未普及。

在元象自研中，用相同语料训练2.7万亿token，XVERSE-MoE-A4.2B实际激活参数量4.2B，功能“跳级”超越 XVERSE-13B-2，仅用30%较量争论量，并减少50%训练时间。与多个开源标杆Llama相比，该模型大幅超越Llama2-13B、接近Llama1-65B（下图）。

元象首个MoE大模型开源：4.2B激活参数，效果堪比13B模型

查看多项权威评测

开源上，元象大模型“全家桶”持续迭代，将国产开源引领至国际一流水平。应用上，元象发挥AI+3D共同技能共同优势，推出大模型、3D空间、AIGC工具等一站式解决方案，赋能文娱、旅游、金融等各行各业，在智能客服、创意体验、提效工具等多场景打造领先用户体验。

MoE技能自研与创新

MoE是目前业界最前沿的模型框架，由于技能较新，国内开源模型或学术研究尚未普及。元象自主研发了MoE的高效训练和推理框架，并在三个方向创新：

功能上，针对MoE架构中共同大师路由和权重较量争论逻辑，研发一套高效融合算子，显著提升了较量争论效率；针对MoE模型高显存使用和大通信量挑战，计划出较量争论、通信和显存卸载的重叠操作，有效提高整体处理吞吐量。

架构上，与传统MoE（如Mixtral 8x7B）将每个大师大小等同于尺度FFN不同，元象选择更细粒度的大师计划，每个大师大小仅为尺度FFN的四分之一，提高了模型灵活性与功能；还将大师分为同享大师（Shared Expert）和非同享大师（Non-shared Expert）两类。同享大师在较量争论过程中始终保持激活状态，而非同享大师则根据需要选择性激活。这种计划有利于将通用知识压缩至同享大师参数中，减少非同享大师参数间的知识冗余。

训练上，受Switch Transformers、ST-MoE和DeepSeekMoE等启发，元象引入负载均衡损失项，更好均衡大师间的负载；选择路由器z-loss项，确保训练高效和稳定。

架构选择则经过一系列对照试验得出（下图），在试验3与试验2中，总参数量和激活参数量相同，但前者的细粒度大师计划带来了更高的功能表现。试验4在此基础上，进一步划分同享和非同享两类大师，使得效果显著提升。试验5探究了大师大小等于尺度FFN时，引入同享大师的做法，效果不甚理想。

元象首个MoE大模型开源：4.2B激活参数，效果堪比13B模型

对照试验计划方案

综合试验结果（下图），元象最终选择试验4对应的架构设置。展望未来，新近开源的Google Gemma与X（前Twitter）Grok等项目选择了比尺度FFN更大的设定，元象也将在后续继续深入探究相关方向探究研，保持技能引领性。

元象首个MoE大模型开源：4.2B激活参数，效果堪比13B模型

对照试验效果

免费下载大模型

Hugging Face：https://huggingface.co/xverse/XVERSE-MoE-A4.2BModelScope魔搭：https://modelscope.cn/models/xverse/XVERSE-MoE-A4.2BGithub：https://github.com/xverse-ai/XVERSE-MoE-A4.2B问询发送：[email protected]

{{userData.name}}已认证

元象首个MoE大模型开源：4.2B激活参数，效果堪比13B模型

Babel 张海龙：AI Agent 将铸就一支“钢铁雄师”

征稿｜ CVPR 2024 Workshop ｜第一届 Virtual Humans for Robotics and Autonomous Driving

刚刚，AI颠覆物理模拟：一句话精准仿真，学术圈半壁江山联手耗时24个月研究成果

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

2024年AI 编程现在可以做到什么程度？

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！

抢跑OpenAI！谷歌Gemini 2.0震撼登场：全面转向Agent，多模态输入输出，免费随便玩