FP8-LM 混合精度训练框架

用FP8训练大模型有多香？微软：比BF16快64%，省42%内存

低精度训练是大模型训练中扩展模型大小，节约训练成本的最关键技术之一。相比于当前的 16 位和 32 位浮点混合精度训练，使用 FP8 8 位浮点混合精度训练能带来 2 倍的速度提升，节省 50% - 75% 的显存和 50% - 75% 的通信成本，而且英伟达最新一代卡皇 H100 自带良好的 FP8 硬件支持。但目前业界大模型训练框架对 FP8 训练的支持还非常有限。最近，微软提出了一种用于训练 LLM 的 FP8 混合精度框架 FP8-LM，将 FP8 尽可能应用在大模型训练的计算、存储和通信中，使用 H100