大模型超强内存优化:成本削减高达75%,性能不减弱!成果出自日本一初创AI公司之手;网友:电力可能够用了!

出品 | 51CTO技术栈(微信号:blog51cto)一项逆天的大模型优化技术来了! 东京初创公司Sakana AI的研究人员开发了一种新技术,让大模型能够更有效地使用内存,不仅最多节省75%的内存占用,还甚至性能也有所提升! 这种名为“通用Transformer内存”的技术使用特殊的神经网络优化LLM,保留重要的信息并丢弃冗余的细节。

出品 | 51CTO技术栈(微信号:blog51cto)

一项逆天的大模型优化技术来了!

东京初创公司Sakana AI的研究人员开发了一种新技术,让大模型能够更有效地使用内存,不仅最多节省75%的内存占用,还甚至性能也有所提升!

这种名为“通用Transformer内存”的技术使用特殊的神经网络优化LLM,保留重要的信息并丢弃冗余的细节。

这项技术旨在帮助企业降低基于大模型和其他基于Transformer的模型构建应用程序的成本。

这项技术在Hacker News上也被广泛讨论,一位网友说:会不会在经过三四年的性能优化,我们会发现根本不需要建核电站?

大模型超强内存优化:成本削减高达75%,性能不减弱!成果出自日本一初创AI公司之手;网友:电力可能够用了!图片

1.Transformer内存技术:神经网络决定是否记忆存储的Tokens

目前的模型支持非常长的上下文窗口,可以容纳数十万甚至数百万个Tokens。

这使得用户能够在提示中塞入更多信息。然而,较长的提示可能导致更高的计算成本和较慢的性能。

当前的提示优化技术需要大量资源,或者要求用户手动测试不同配置以减少提示的大小。

Sakana AI的研究人员,所开发的通用Transformer内存技术,通过神经注意力记忆模型(NAMMs)优化提示。NAMMs是简单的神经网络,决定是否“记住”或“忘记”LLM内存中存储的每个Token。

“这一新功能使Transformer能够丢弃不重要或冗余的细节,专注于最关键的信息,我们认为这对于需要长上下文推理的任务至关重要,”研究人员写道。

大模型超强内存优化:成本削减高达75%,性能不减弱!成果出自日本一初创AI公司之手;网友:电力可能够用了!图片

NAMMs与LLM是分开训练的,并在推理时与预训练模型结合,这使得它们具有灵活性,易于部署。然而,它们需要访问模型的内部激活,因此只能应用于开源模型。

与Sakana AI开发的其他技术一样,NAMMs是通过进化算法而非基于梯度的优化方法进行训练的。通过反复变异和选择表现最佳的模型,进化算法优化NAMMs的效率和性能。这尤其重要,因为NAMMs试图实现一个不可微分的目标:保留或丢弃标记。

NAMMs作用于LLM的注意力层,这是Transformer架构的关键组件,决定了模型上下文窗口中每个标记的关系和重要性。基于注意力值,NAMMs决定应保留哪些标记,哪些可以从LLM的上下文窗口中丢弃。这种基于注意力的机制使得训练好的NAMM可以在不同模型上使用而无需进一步修改。例如,训练在文本数据上的NAMM可以应用于视觉或多模态模型,而无需额外训练。

2.通用内存技术的应用:最高节省75%内存

为了测试通用Transformer内存的实际效果,研究人员在开源的Meta Llama 3-8B模型上训练了一个NAMM。他们的实验显示,使用NAMMs后,基于Transformer的模型在非常长的序列上处理自然语言和编码问题时表现更好。同时,通过丢弃不必要的标记,NAMM使LLM模型在执行任务时节省了高达75%的缓存内存。

“在我们的基准测试中,NAMMs显著提高了Llama 3-8B Transformer的性能,”研究人员写道。“此外,我们的内存系统还带来了显著的附加好处,减少了每层的上下文大小,同时从未专门优化过内存效率。”

他们还在70B版本的Llama模型以及针对其他模态和任务设计的Transformer模型上进行了测试,如Llava(计算机视觉)和Decision Transformer(强化学习)。

“即使在这些分布外的设置中,NAMMs通过丢弃冗余的视频帧和不理想的行动,仍然保持其优势,使其新的基础模型能够专注于最相关的信息,从而提高性能,”研究人员写道。

大模型超强内存优化:成本削减高达75%,性能不减弱!成果出自日本一初创AI公司之手;网友:电力可能够用了!图片

上图:神经注意力记忆模型 (NAMM) 会检查注意力层,以确定哪些标记应从上下文窗口中保留或丢弃

3.新发现:神经网络能根据任务调整其行为

另一个有趣的发现是,NAMMs会根据任务自动调整其行为。

例如,在编码任务中,模型丢弃与代码执行无关的连续标记块,如注释和空白字符。

另一方面,在自然语言任务中,模型丢弃表示语法冗余且不影响序列意义的标记。

研究人员发布了创建自己NAMM的代码。像通用Transformer内存这样的技术对于处理数百万个标记的企业应用程序非常有用,能够提升速度并降低成本。经过训练的NAMM的可重用性也使其成为跨不同应用程序使用的多功能工具。

未来,研究人员建议采用更先进的技术,例如在训练LLM时使用NAMMs,以进一步扩展其内存能力。

“这项工作仅仅开始挖掘我们这一新型内存模型的潜力,我们预期它可能为推动未来几代Transformer的发展提供许多新机会,”研究人员写道。

参考链接:https://venturebeat.com/ai/new-llm-optimization-technique-slashes-memory-costs-up-to-75/

想了解更多AIGC的内容,请访问:

51CTO AI.x社区

https://www.51cto.com/aigc/

给TA打赏
共{{data.count}}人
人已打赏
理论

谷歌发布 FACTS Grounding 基准:Gemini、GPT-4o、Claude 当评委,成 AI 大语言模型“幻觉照妖镜”

2024-12-18 13:24:30

理论

见证历史!AI想的科研idea,真被人类写成论文发表了

2024-12-18 13:30:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索