差分注意力机制

Differential Transformer: 通过差分注意力机制提升大语言模型性能

Transformer模型已经成为大语言模型（LLMs）的标准架构，但研究表明这些模型在准确检索关键信息方面仍面临挑战。今天介绍一篇名叫Differential Transformer的论文，论文的作者观察到一个关键问题：传统Transformer模型倾向于过分关注不相关的上下文信息，这种"注意力噪声"会影响模型的性能。在这篇论文中，作者注意到transformer模型倾向于关注不相关的上下文。