高效大模型 - AI在线

WAIC 最具技术想象力成果发布：新架构面壁小钢炮又一次验证并加速了面壁定律

2020 年，1750 亿参数规模的 GPT-3 问世。彼时，完整训练 1750 亿参数的模型需要 3.14E11（TFLOPS）的每秒浮点运算量。如果使用英伟达 80GB A100 GPU（16位浮点算力有 312 TFLOPS，但在分布式环境中很难达到峰值），按照每张显卡 1.5 刀每小时的租赁价格来算，则需要使用一千张 A100 、花费81.6 万刀、用 22 天才能完成整个训练过程。