盘古-Σ
打破MoE训练效率与性能瓶颈,华为盘古稀疏大模型全新架构LocMoE出炉
2023 年 12 月,首个开源 MoE 大模型 Mixtral 8×7B 发布,在多种基准测试中,其表现近乎超越了 GPT-3.5 和 LLaMA 2 70B,而推理开销仅相当于 12B 左右的稠密模型。为进一步提升模型性能,稠密 LLM 常由于其参数规模急剧扩张而面临严峻的训练成本。MoE 的广泛应用,使得在计算成本相对不变的条件下,模型容量能够得到显著扩展。此特性无疑使得 MoE 成为推动 LLM 发展的关键技术。MoE 设计的初衷,是使模型的学习更加 “术业有专攻”,其有效性已得到业界肯定。然而现有 MoE
2/4/2024 3:49:00 PM
机器之心
- 1
资讯热榜
标签云
人工智能
AIGC
OpenAI
AI绘画
ChatGPT
数据
机器人
DeepSeek
谷歌
AI
Midjourney
智能
大模型
学习
GPT
用户
微软
AI创作
开源
图像
Meta
技术
论文
Stable Diffusion
模型
马斯克
算法
生成式
蛋白质
芯片
Gemini
计算
代码
神经网络
腾讯
研究
AI设计
Sora
3D
GPU
英伟达
开发者
机器学习
场景
伟达
预测
华为
模态
Transformer
AI for Science
文本
驾驶
深度学习
AI视频
百度
神器推荐
苹果
算力
搜索
LLaMA
视频生成
干货合集
Anthropic
Copilot
科技
2024
应用
xAI
安全
特斯拉
具身智能
AI应用场景
写作
机器
字节跳动
视觉
人形机器人
AGI
DeepMind
架构