warp

比标准Attention提速5-9倍,大模型都在用的FlashAttention v2来了

一年时间,斯坦福大学提出的新型 Attention 算法 ——FlashAttention 完成了进化。这次在算法、并行化和工作分区等方面都有了显著改进,对大模型的适用性也更强了。
  • 1