NCCLX
Llama3.1 训练平均 3 小时故障一次,H100 万卡集群好脆弱,气温波动都会影响吞吐量
每 3 个小时 1 次、平均 1 天 8 次,Llama 3.1 405B 预训练老出故障,H100 是罪魁祸首?最近有人从 Meta 发布的 92 页超长 Llama 3.1 论文中发现了华点:Llama 3.1 在为期 54 天的预训练期间,经历了共 466 次任务中断。其中只有 47 次是计划内的,419 次纯属意外,意外中 78% 已确认或怀疑是硬件问题导致。而且 GPU 问题最严重,占了 58.7%。Llama 3.1 405 模型是在一个含 16384 块 Nvidia H100 80GB GPU 集群
7/29/2024 5:54:34 PM
清源
- 1
资讯热榜
标签云
人工智能
AIGC
OpenAI
AI绘画
ChatGPT
机器人
数据
谷歌
智能
Midjourney
大模型
学习
GPT
DeepSeek
用户
AI创作
微软
图像
AI
开源
Meta
技术
论文
Stable Diffusion
算法
生成式
蛋白质
马斯克
芯片
Gemini
计算
神经网络
代码
AI设计
Sora
研究
腾讯
3D
开发者
GPU
场景
伟达
英伟达
预测
机器学习
模态
华为
Transformer
模型
文本
驾驶
神器推荐
深度学习
AI视频
AI for Science
苹果
搜索
干货合集
LLaMA
视频生成
算力
百度
2024
Copilot
科技
应用
Anthropic
特斯拉
AI应用场景
安全
具身智能
写作
机器
字节跳动
AGI
视觉
架构
语音
DeepMind
API