蚂蚁集团开源新算法，可助大模型推理提速2-6倍

近日，蚂蚁集团开源了一套新算法，可帮助大模型在推理时，提速2至6倍，引起业内关注。图：新算法在不同开源大模型上的提速表现。这套新算法名为Lookahead推理减速框架，能做到效果无损，即插即用，该算法已在蚂蚁大量场景举行了落地，大幅降低了推理耗时。以Llama2-7B-chat模型与Dolly数据集为例，实测token生成速度可由48.2个/秒，升至112.9个/秒，提速2.34倍。而在蚂蚁内部的RAG（检索增强生成）数据集上，百灵大模型AntGLM 10B版本的减速比达到5.36，与此同时，显存增加和内存消耗几乎

近日，蚂蚁集团开源了一套新算法，可帮助大模型在推理时，提速2至6倍，引起业内关注。

图：新算法在不同开源大模型上的提速表现。

这套新算法名为Lookahead推理减速框架，能做到效果无损，即插即用，该算法已在蚂蚁大量场景举行了落地，大幅降低了推理耗时。

以Llama2-7B-chat模型与Dolly数据集为例，实测token生成速度可由48.2个/秒，升至112.9个/秒，提速2.34倍。而在蚂蚁内部的RAG（检索增强生成）数据集上，百灵大模型AntGLM 10B版本的减速比达到5.36，与此同时，显存增加和内存消耗几乎可以忽略。

当下的大模型基本是鉴于自回归解码，每一步解码仅生成一个token，这种操作方式既浪费了GPU的并行处理能力，也导致用户体验延迟过高，影响使用流畅度。

举个例子，原来的token生成历程，就像早期中文输入法，只能一个字一个字“敲”出来，采用了蚂蚁的减速算法后，token生成就像联想输入法，有些整句可直接“蹦”出来。

此前业内有少量的优化算法，主要集中在如何生成更好的初稿（即猜测生成token的序列）上，但是实践证明初稿在超过30个token长度后，端到端的推理效益就无法进一步提高，但是这个长度远没有充分利用GPU的运算能力。

为了进一步压榨硬件性能，蚂蚁Lookahead推理减速算法采用了多分支的策略，即初稿序列不再仅仅包罗一条分支，而是包罗多条并行的分支，多条分支在一次前向历程中举行并行验证。因此可以在耗时基本不变的前提下，提高一次前向历程生成的token个数。

再进一步，蚂蚁Lookahead推理减速算法利用trie树存储和检索token序列，并将多条初稿中相同的父节点举行合并，进一步提高了计算效益。为了提高易用性，trie树的建立不依赖额外的初稿模型，只利用推理历程中的prompt及生成的回答举行动态建立，降低了用户的接入成本。

该算法现已在GitHub上开源（https://github.com/alipay/PainlessInferenceAcceleration），相关论文公布在ARXIV（https://arxiv.org/abs/2312.12728）。

公开信息显示，蚂蚁集团鉴于丰富的业务场景需求，在人工智能方向持续投入，布局了包括大模型、知识图谱、运筹优化、图学习、可信AI等技术领域。

{{userData.name}}已认证

蚂蚁集团开源新算法，可助大模型推理提速2-6倍

AI PC热再现CES2024，行业求解落地路线

高清视频一键生成！AIGC 免费视频生成神器 MorphStudio

AI 架构 Transformer 再进化：谷歌新方法突破长文本处理，注意力模块内存需求可降至 1/47

最强文生图 AI 模型 Flux 再进化：出图速度快 6 倍，Elo 评分冲上 1153 傲视群雄

最新 AI 生图模型 Flux1.1 隐藏玩法，添加单反相机文件名获得超写实图像

快手可灵 AI 新增“对口型”功能：生成人物口型与上传音频同步

Meta 发布 AI 视频生成器 Movie Gen：可自动生成含声音的高清视频

Meta 用 AI 生成北极光图片，遭网友怒喷

奥特曼赢家通吃！OpenAI再揽66亿美元新融资，还不忘「狙击」一把老同事Ilya

英伟达 CEO 黄仁勋展望公司未来：坐拥 5 万名员工、部署 1 亿个 AI 助手