高效大模型

WAIC 最具技术想象力成果发布:新架构面壁小钢炮又一次验证并加速了面壁定律

2020 年,1750 亿参数规模的 GPT-3 问世。 彼时,完整训练 1750 亿参数的模型需要 3.14E11(TFLOPS)的每秒浮点运算量。 如果使用英伟达 80GB A100 GPU(16位浮点算力有 312 TFLOPS,但在分布式环境中很难达到峰值),按照每张显卡 1.5 刀每小时的租赁价格来算,则需要使用一千张 A100 、花费81.6 万刀、用 22 天才能完成整个训练过程。
  • 1