MHA - AI在线

LLM注意力Attention，Q、K、V矩阵通俗理解

QKV的重要性要理解大语言模型效果的底层实现原理，很大一部分就是理解Transformers Block里面的QKV矩阵。现在前沿的大模型研究工作很大一部分都是围绕着QKV矩阵去做的，比如注意力、量化、低秩压缩等等。其本质原因是因为QKV权重占比着大语言模型50%以上的权重比例，在推理过程中，QKV存储量还会随着上下文长度的增长而线性增长，计算量也平方增加。