故障 - AI在线

Llama3.1 训练平均 3 小时故障一次，H100 万卡集群好脆弱，气温波动都会影响吞吐量

每 3 个小时 1 次、平均 1 天 8 次，Llama 3.1 405B 预训练老出故障，H100 是罪魁祸首？最近有人从 Meta 发布的 92 页超长 Llama 3.1 论文中发现了华点：Llama 3.1 在为期 54 天的预训练期间，经历了共 466 次任务中断。其中只有 47 次是计划内的，419 次纯属意外，意外中 78% 已确认或怀疑是硬件问题导致。而且 GPU 问题最严重，占了 58.7%。Llama 3.1 405 模型是在一个含 16384 块 Nvidia H100 80GB GPU 集群

Meta 训练 Llama 3 遭遇频繁故障：16384 块 H100 GPU 训练集群每 3 小时“罢工”一次

Meta 发布的一份研究报告显示，其用于训练 4050 亿参数模型 Llama 3 的 16384 个英伟达 H100 显卡集群在 54 天内出现了 419 次意外故障，平均每三小时就有一次。其中，一半以上的故障是由显卡或其搭载的高带宽内存（HBM3）引起的。由于系统规模巨大且任务高度同步，单个显卡故障可能导致整个训练任务中断，需要重新开始。尽管如此，Meta 团队还是保持了 90% 以上的有效训练时间。AI在线注意到，在为期 54 天的预预训练中，共出现了 466 次工作中断，其中 47 次是计划中断，419 次

达观电网故障知识图谱，三大功能全面提升电网故障处置效率

达观推出电力故障模式知识图谱，借助自然语言处理、深度学习、图计算等智能化技术从非结构化的故障处置文档中抽取出故障相关知识，并将这些知识组织成结构化、可视化的表示形式。