出品 | 51CTO技术栈(微信号:blog51cto)
一项逆天的大模型优化技术来了!
东京初创公司Sakana AI的研究人员开发了一种新技术,让大模型能够更有效地使用内存,不仅最多节省75%的内存占用,还甚至性能也有所提升!
这种名为“通用Transformer内存”的技术使用特殊的神经网络优化LLM,保留重要的信息并丢弃冗余的细节。
这项技术旨在帮助企业降低基于大模型和其他基于Transformer的模型构建应用程序的成本。
这项技术在Hacker News上也被广泛讨论,一位网友说:会不会在经过三四年的性能优化,我们会发现根本不需要建核电站?
图片
1.Transformer内存技术:神经网络决定是否记忆存储的Tokens
目前的模型支持非常长的上下文窗口,可以容纳数十万甚至数百万个Tokens。
这使得用户能够在提示中塞入更多信息。然而,较长的提示可能导致更高的计算成本和较慢的性能。
当前的提示优化技术需要大量资源,或者要求用户手动测试不同配置以减少提示的大小。
Sakana AI的研究人员,所开发的通用Transformer内存技术,通过神经注意力记忆模型(NAMMs)优化提示。NAMMs是简单的神经网络,决定是否“记住”或“忘记”LLM内存中存储的每个Token。
“这一新功能使Transformer能够丢弃不重要或冗余的细节,专注于最关键的信息,我们认为这对于需要长上下文推理的任务至关重要,”研究人员写道。
图片
NAMMs与LLM是分开训练的,并在推理时与预训练模型结合,这使得它们具有灵活性,易于部署。然而,它们需要访问模型的内部激活,因此只能应用于开源模型。
与Sakana AI开发的其他技术一样,NAMMs是通过进化算法而非基于梯度的优化方法进行训练的。通过反复变异和选择表现最佳的模型,进化算法优化NAMMs的效率和性能。这尤其重要,因为NAMMs试图实现一个不可微分的目标:保留或丢弃标记。
NAMMs作用于LLM的注意力层,这是Transformer架构的关键组件,决定了模型上下文窗口中每个标记的关系和重要性。基于注意力值,NAMMs决定应保留哪些标记,哪些可以从LLM的上下文窗口中丢弃。这种基于注意力的机制使得训练好的NAMM可以在不同模型上使用而无需进一步修改。例如,训练在文本数据上的NAMM可以应用于视觉或多模态模型,而无需额外训练。
2.通用内存技术的应用:最高节省75%内存
为了测试通用Transformer内存的实际效果,研究人员在开源的Meta Llama 3-8B模型上训练了一个NAMM。他们的实验显示,使用NAMMs后,基于Transformer的模型在非常长的序列上处理自然语言和编码问题时表现更好。同时,通过丢弃不必要的标记,NAMM使LLM模型在执行任务时节省了高达75%的缓存内存。
“在我们的基准测试中,NAMMs显著提高了Llama 3-8B Transformer的性能,”研究人员写道。“此外,我们的内存系统还带来了显著的附加好处,减少了每层的上下文大小,同时从未专门优化过内存效率。”
他们还在70B版本的Llama模型以及针对其他模态和任务设计的Transformer模型上进行了测试,如Llava(计算机视觉)和Decision Transformer(强化学习)。
“即使在这些分布外的设置中,NAMMs通过丢弃冗余的视频帧和不理想的行动,仍然保持其优势,使其新的基础模型能够专注于最相关的信息,从而提高性能,”研究人员写道。
图片
上图:神经注意力记忆模型 (NAMM) 会检查注意力层,以确定哪些标记应从上下文窗口中保留或丢弃
3.新发现:神经网络能根据任务调整其行为
另一个有趣的发现是,NAMMs会根据任务自动调整其行为。
例如,在编码任务中,模型丢弃与代码执行无关的连续标记块,如注释和空白字符。
另一方面,在自然语言任务中,模型丢弃表示语法冗余且不影响序列意义的标记。
研究人员发布了创建自己NAMM的代码。像通用Transformer内存这样的技术对于处理数百万个标记的企业应用程序非常有用,能够提升速度并降低成本。经过训练的NAMM的可重用性也使其成为跨不同应用程序使用的多功能工具。
未来,研究人员建议采用更先进的技术,例如在训练LLM时使用NAMMs,以进一步扩展其内存能力。
“这项工作仅仅开始挖掘我们这一新型内存模型的潜力,我们预期它可能为推动未来几代Transformer的发展提供许多新机会,”研究人员写道。
参考链接:https://venturebeat.com/ai/new-llm-optimization-technique-slashes-memory-costs-up-to-75/
想了解更多AIGC的内容,请访问:
51CTO AI.x社区
https://www.51cto.com/aigc/