一致性大语言模型

3倍生成速度还降内存成本，超越Medusa2的高效解码框架终于来了

高效解码n -token序列，CLLMs Jacobi解码框架。传统上，大型语言模型（LLMs）被认为是顺序解码器，逐个解码每个token。来自上海交通大学、加利福尼亚大学的研究团队展示了预训练的LLMs可以轻松地被教导成为高效的并行解码器，并介绍了一种新的并行解码器族，称为一致性大语言模型（CLLMs），能够通过在每个推断步骤中高效地解码一个n -token序列来降低推断延迟。在此篇论文中，研究表明：「模仿人类在头脑中形成完整句子后逐字表达的认知过程，可以通过简单地微调预训练的LLMs来有效地学习。」具体而言，C