大模型超强内存优化：成本削减高达75%，性能不减弱！成果出自日本一初创AI公司之手；网友：电力可能够用了！

出品 | 51CTO技术栈（微信号：blog51cto）一项逆天的大模型优化技术来了！东京初创公司Sakana AI的研究人员开发了一种新技术，让大模型能够更有效地使用内存，不仅最多节省75%的内存占用，还甚至性能也有所提升！这种名为“通用Transformer内存”的技术使用特殊的神经网络优化LLM，保留重要的信息并丢弃冗余的细节。

出品 | 51CTO技术栈（微信号：blog51cto）

一项逆天的大模型优化技术来了！

东京初创公司Sakana AI的研究人员开发了一种新技术，让大模型能够更有效地使用内存，不仅最多节省75%的内存占用，还甚至性能也有所提升！

这种名为“通用Transformer内存”的技术使用特殊的神经网络优化LLM，保留重要的信息并丢弃冗余的细节。

这项技术旨在帮助企业降低基于大模型和其他基于Transformer的模型构建应用程序的成本。

这项技术在Hacker News上也被广泛讨论，一位网友说：会不会在经过三四年的性能优化，我们会发现根本不需要建核电站？

大模型超强内存优化：成本削减高达75%，性能不减弱！成果出自日本一初创AI公司之手；网友：电力可能够用了！图片

1.Transformer内存技术：神经网络决定是否记忆存储的Tokens

目前的模型支持非常长的上下文窗口，可以容纳数十万甚至数百万个Tokens。

这使得用户能够在提示中塞入更多信息。然而，较长的提示可能导致更高的计算成本和较慢的性能。

当前的提示优化技术需要大量资源，或者要求用户手动测试不同配置以减少提示的大小。

Sakana AI的研究人员，所开发的通用Transformer内存技术，通过神经注意力记忆模型（NAMMs）优化提示。NAMMs是简单的神经网络，决定是否“记住”或“忘记”LLM内存中存储的每个Token。

“这一新功能使Transformer能够丢弃不重要或冗余的细节，专注于最关键的信息，我们认为这对于需要长上下文推理的任务至关重要，”研究人员写道。

大模型超强内存优化：成本削减高达75%，性能不减弱！成果出自日本一初创AI公司之手；网友：电力可能够用了！图片

NAMMs与LLM是分开训练的，并在推理时与预训练模型结合，这使得它们具有灵活性，易于部署。然而，它们需要访问模型的内部激活，因此只能应用于开源模型。

与Sakana AI开发的其他技术一样，NAMMs是通过进化算法而非基于梯度的优化方法进行训练的。通过反复变异和选择表现最佳的模型，进化算法优化NAMMs的效率和性能。这尤其重要，因为NAMMs试图实现一个不可微分的目标：保留或丢弃标记。

NAMMs作用于LLM的注意力层，这是Transformer架构的关键组件，决定了模型上下文窗口中每个标记的关系和重要性。基于注意力值，NAMMs决定应保留哪些标记，哪些可以从LLM的上下文窗口中丢弃。这种基于注意力的机制使得训练好的NAMM可以在不同模型上使用而无需进一步修改。例如，训练在文本数据上的NAMM可以应用于视觉或多模态模型，而无需额外训练。

2.通用内存技术的应用：最高节省75%内存

为了测试通用Transformer内存的实际效果，研究人员在开源的Meta Llama 3-8B模型上训练了一个NAMM。他们的实验显示，使用NAMMs后，基于Transformer的模型在非常长的序列上处理自然语言和编码问题时表现更好。同时，通过丢弃不必要的标记，NAMM使LLM模型在执行任务时节省了高达75%的缓存内存。

“在我们的基准测试中，NAMMs显著提高了Llama 3-8B Transformer的性能，”研究人员写道。“此外，我们的内存系统还带来了显著的附加好处，减少了每层的上下文大小，同时从未专门优化过内存效率。”

他们还在70B版本的Llama模型以及针对其他模态和任务设计的Transformer模型上进行了测试，如Llava（计算机视觉）和Decision Transformer（强化学习）。

“即使在这些分布外的设置中，NAMMs通过丢弃冗余的视频帧和不理想的行动，仍然保持其优势，使其新的基础模型能够专注于最相关的信息，从而提高性能，”研究人员写道。

大模型超强内存优化：成本削减高达75%，性能不减弱！成果出自日本一初创AI公司之手；网友：电力可能够用了！图片

上图：神经注意力记忆模型 (NAMM) 会检查注意力层，以确定哪些标记应从上下文窗口中保留或丢弃

3.新发现：神经网络能根据任务调整其行为

另一个有趣的发现是，NAMMs会根据任务自动调整其行为。

例如，在编码任务中，模型丢弃与代码执行无关的连续标记块，如注释和空白字符。

另一方面，在自然语言任务中，模型丢弃表示语法冗余且不影响序列意义的标记。

研究人员发布了创建自己NAMM的代码。像通用Transformer内存这样的技术对于处理数百万个标记的企业应用程序非常有用，能够提升速度并降低成本。经过训练的NAMM的可重用性也使其成为跨不同应用程序使用的多功能工具。

未来，研究人员建议采用更先进的技术，例如在训练LLM时使用NAMMs，以进一步扩展其内存能力。

“这项工作仅仅开始挖掘我们这一新型内存模型的潜力，我们预期它可能为推动未来几代Transformer的发展提供许多新机会，”研究人员写道。

参考链接：https://venturebeat.com/ai/new-llm-optimization-technique-slashes-memory-costs-up-to-75/

想了解更多AIGC的内容，请访问：

51CTO AI.x社区

https://www.51cto.com/aigc/

{{userData.name}}已认证

大模型超强内存优化：成本削减高达75%，性能不减弱！成果出自日本一初创AI公司之手；网友：电力可能够用了！

1.Transformer内存技术：神经网络决定是否记忆存储的Tokens

2.通用内存技术的应用：最高节省75%内存

3.新发现：神经网络能根据任务调整其行为

谷歌发布 FACTS Grounding 基准：Gemini、GPT-4o、Claude 当评委，成 AI 大语言模型“幻觉照妖镜”

见证历史！AI想的科研idea，真被人类写成论文发表了

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

ChatGPT遇到这些人名开始自闭，OpenAI回应了

平安人寿ChatBI：大模型智能化报表的深度实践

字节跳动豆包 AI 文生图“喜提新技能”：App 可生成带有指定文字的图片

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

OpenAI 从谷歌 DeepMind 挖角三名高级工程师，专注于多模态 AI 研发

腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！