百灵轻量版

蚂蚁集团发布两款创新 MoE 大模型,训练成本大幅降低

近日,蚂蚁集团的 Ling 团队在预印版 Arxiv 平台上发布了题为《每一个 FLOP 都至关重要:无需高级 GPU 即可扩展3000亿参数混合专家 LING 大模型》的技术论文,介绍了他们研发的两款新型大语言模型:百灵轻量版(Ling-Lite)和百灵增强版(Ling-Plus)。 这两款模型在设计上采用了多项创新,能够在低性能硬件上高效训练,显著降低了成本。 百灵轻量版的参数规模为168亿,其中激活参数为27.5亿。
  • 1