大模型超强内存优化:成本削减高达75%,性能不减弱!成果出自日本一初创AI公司之手;网友:电力可能够用了!

出品 | 51CTO技术栈(微信号:blog51cto)一项逆天的大模型优化技术来了! 东京初创公司Sakana AI的研究人员开发了一种新技术,让大模型能够更有效地使用内存,不仅最多节省75%的内存占用,还甚至性能也有所提升! 这种名为“通用Transformer内存”的技术使用特殊的神经网络优化LLM,保留重要的信息并丢弃冗余的细节。

出品 | 51CTO技术栈(微信号:blog51cto)

一项逆天的大模型优化技术来了!

东京初创公司Sakana AI的研究人员开发了一种新技术,让大模型能够更有效地使用内存,不仅最多节省75%的内存占用,还甚至性能也有所提升!

这种名为“通用Transformer内存”的技术使用特殊的神经网络优化LLM,保留重要的信息并丢弃冗余的细节。

这项技术旨在帮助企业降低基于大模型和其他基于Transformer的模型构建应用程序的成本。

这项技术在Hacker News上也被广泛讨论,一位网友说:会不会在经过三四年的性能优化,我们会发现根本不需要建核电站?

图片图片

1.Transformer内存技术:神经网络决定是否记忆存储的Tokens

目前的模型支持非常长的上下文窗口,可以容纳数十万甚至数百万个Tokens。

这使得用户能够在提示中塞入更多信息。然而,较长的提示可能导致更高的计算成本和较慢的性能。

当前的提示优化技术需要大量资源,或者要求用户手动测试不同配置以减少提示的大小。

Sakana AI的研究人员,所开发的通用Transformer内存技术,通过神经注意力记忆模型(NAMMs)优化提示。NAMMs是简单的神经网络,决定是否“记住”或“忘记”LLM内存中存储的每个Token。

“这一新功能使Transformer能够丢弃不重要或冗余的细节,专注于最关键的信息,我们认为这对于需要长上下文推理的任务至关重要,”研究人员写道。

图片图片

NAMMs与LLM是分开训练的,并在推理时与预训练模型结合,这使得它们具有灵活性,易于部署。然而,它们需要访问模型的内部激活,因此只能应用于开源模型。

与Sakana AI开发的其他技术一样,NAMMs是通过进化算法而非基于梯度的优化方法进行训练的。通过反复变异和选择表现最佳的模型,进化算法优化NAMMs的效率和性能。这尤其重要,因为NAMMs试图实现一个不可微分的目标:保留或丢弃标记。

NAMMs作用于LLM的注意力层,这是Transformer架构的关键组件,决定了模型上下文窗口中每个标记的关系和重要性。基于注意力值,NAMMs决定应保留哪些标记,哪些可以从LLM的上下文窗口中丢弃。这种基于注意力的机制使得训练好的NAMM可以在不同模型上使用而无需进一步修改。例如,训练在文本数据上的NAMM可以应用于视觉或多模态模型,而无需额外训练。

2.通用内存技术的应用:最高节省75%内存

为了测试通用Transformer内存的实际效果,研究人员在开源的Meta Llama 3-8B模型上训练了一个NAMM。他们的实验显示,使用NAMMs后,基于Transformer的模型在非常长的序列上处理自然语言和编码问题时表现更好。同时,通过丢弃不必要的标记,NAMM使LLM模型在执行任务时节省了高达75%的缓存内存。

“在我们的基准测试中,NAMMs显著提高了Llama 3-8B Transformer的性能,”研究人员写道。“此外,我们的内存系统还带来了显著的附加好处,减少了每层的上下文大小,同时从未专门优化过内存效率。”

他们还在70B版本的Llama模型以及针对其他模态和任务设计的Transformer模型上进行了测试,如Llava(计算机视觉)和Decision Transformer(强化学习)。

“即使在这些分布外的设置中,NAMMs通过丢弃冗余的视频帧和不理想的行动,仍然保持其优势,使其新的基础模型能够专注于最相关的信息,从而提高性能,”研究人员写道。

图片图片

上图:神经注意力记忆模型 (NAMM) 会检查注意力层,以确定哪些标记应从上下文窗口中保留或丢弃

3.新发现:神经网络能根据任务调整其行为

另一个有趣的发现是,NAMMs会根据任务自动调整其行为。

例如,在编码任务中,模型丢弃与代码执行无关的连续标记块,如注释和空白字符。

另一方面,在自然语言任务中,模型丢弃表示语法冗余且不影响序列意义的标记。

研究人员发布了创建自己NAMM的代码。像通用Transformer内存这样的技术对于处理数百万个标记的企业应用程序非常有用,能够提升速度并降低成本。经过训练的NAMM的可重用性也使其成为跨不同应用程序使用的多功能工具。

未来,研究人员建议采用更先进的技术,例如在训练LLM时使用NAMMs,以进一步扩展其内存能力。

“这项工作仅仅开始挖掘我们这一新型内存模型的潜力,我们预期它可能为推动未来几代Transformer的发展提供许多新机会,”研究人员写道。

参考链接:https://venturebeat.com/ai/new-llm-optimization-technique-slashes-memory-costs-up-to-75/

想了解更多AIGC的内容,请访问:

51CTO AI.x社区

https://www.51cto.com/aigc/

相关资讯

豆包大模型团队开源RLHF框架,训练吞吐量最高提升20倍

强化学习(RL)对大模型复杂推理能力提升有关键作用,但其复杂的计算流程对训练和部署也带来了巨大挑战。 近日,字节跳动豆包大模型团队与香港大学联合提出 HybridFlow。 这是一个灵活高效的 RL/RLHF 框架,可显著提升训练吞吐量,降低开发和维护复杂度。

知乎李大海对话阿里云贾扬清:透视AI应用难题与未来趋势

“AI行业接下来可能有哪些发展?” “一线从业者如何看待其中的机会?”知乎合伙人、CTO李大海与阿里巴巴副总裁、阿里云智能高级研究员贾扬清亮相知乎直播,与网友分享了他们对AI时代下行业趋势、技术应用、个人成长等多个层面的洞察和思考。

人工智能向“上”生长,可信AI渐行渐近

一位刚刚上路的新手驾驶员,如何成长为「老司机」?显然,Ta必须经过足够时间和里程的驾驶练习,才能够熟练、从容地应对各种可能出现的路况和紧急事件。所以尽管自动驾驶系统也会在投入使用之前历经大量的真实道路测试,但就算是科学文明相当普及的今天,仍有很多人依旧做不到将开车这件事「放心地交给AI」,毕竟摆在人们眼前的却是道不尽的争议和说不明的驾驶事故,而事故的发生可能是技术,算法,道路,数据,传输,天气,驾驶员等多重主客观因素影响造成的,权责划分十分困难。具体从算法层面看,由于驾驶场景天然对安全性有更高要求,这就需要自动驾驶