Meta 训练 Llama 3 遭遇频繁故障：16384 块 H100 GPU 训练集群每 3 小时“罢工”一次

应用
7月28日
编辑

远洋

Meta 发布的一份研究报告显示，其用于训练 4050 亿参数模型 Llama 3 的 16384 个英伟达 H100 显卡集群在 54 天内出现了 419 次意外故障，平均每三小时就有一次。其中，一半以上的故障是由显卡或其搭载的高带宽内存（HBM3）引起的。由于系统规模巨大且任务高度同步，单个显卡故障可能导致整个训练任务中断，需要重新开始。尽管如此，Meta 团队还是保持了 90% 以上的有效训练时间。AI在线注意到，在为期 54 天的预预训练中，共出现了 466 次工作中断，其中 47 次是计划中断，419 次

Meta 发布的一份研究报告显示，其用于训练 4050 亿参数模型 Llama 3 的 16384 个英伟达 H100 显卡集群在 54 天内出现了 419 次意外故障，平均每三小时就有一次。其中，一半以上的故障是由显卡或其搭载的高带宽内存（HBM3）引起的。

Meta 训练 Llama 3 遭遇频繁故障：16384 块 H100 GPU 训练集群每 3 小时“罢工”一次

由于系统规模巨大且任务高度同步，单个显卡故障可能导致整个训练任务中断，需要重新开始。尽管如此，Meta 团队还是保持了 90% 以上的有效训练时间。

AI在线注意到，在为期 54 天的预预训练中，共出现了 466 次工作中断，其中 47 次是计划中断，419 次是意外中断。计划内的中断是由于自动化维护造成的，而意外的中断则主要源于硬件问题。 GPU 问题是导致故障的主要原因，占意外中断的 58.7%。其中只有三起事件需要大量人工干预，其余的由自动化管理。

Meta 训练 Llama 3 遭遇频繁故障：16384 块 H100 GPU 训练集群每 3 小时“罢工”一次

在 419 个意外中断中，148 个（30.1%）是由各种 GPU 故障（包括 NVLink 故障）引起的，而 72 个（17.2%）是由 GPU 的 HBM3 内存故障引起的。有趣的是，54 天内只有两个 CPU 发生故障。41.3% 的意外中断是由多种因素造成的，包括软件错误、网络电缆和网络适配器。

为提高效率，Meta 团队开发了一系列工具和优化策略，包括缩短任务启动和检查点时间、利用 PyTorch 的 NCCL 飞行记录器诊断性能问题、识别拖后显卡等。此外，Meta 还关注到了环境因素的影响，如午间温度波动对 GPU 性能的轻微影响，以及巨量 GPU 同时运行对数据中心电网的巨大压力。

然而，随着人工智能模型参数量的不断增加，所需的计算资源也随之扩大。以 xAI 计划中的 10 万块 H100 显卡集群为例，故障率可能会成倍增长，给未来的 AI 训练带来更大的挑战。

{{userData.name}}已认证

Meta 训练 Llama 3 遭遇频繁故障：16384 块 H100 GPU 训练集群每 3 小时“罢工”一次

阿里大模型元老杨红霞去向官宣：入职香港高校！被曝创业项目也在推进

防不胜防：黑客可利用 AI 通过 HDMI 线远程窃取屏幕信息

AI 助力脑瘤手术：10 秒内精准识别残留肿瘤

钉钉AI重磅更新：深入业务场景，上线工单等场景AI助理

AI 可“听”出电池起火征兆，准确率达 94%

SU 哈佛亚马逊最新研究：量化能让大模型“恢复记忆”，删掉的隐私版权内容全回来了

零一万物与华为启动合作，将基于昇腾硬件底座开发原生大模型应用

谷歌 Gemini 发布苹果 iOS 版 App：集成灵动岛，支持 AI 语音聊天

OpenAI 呼吁建立“北美人工智能联盟”，好与中国竞争

编程利器：OpenAI 升级 ChatGPT 应用，可配合 Xcode 等工具使用简化开发流程