蚂蚁集团开源新算法,可助大模型推理提速2-6倍

近日,蚂蚁集团开源了一套新算法,可帮助大模型在推理时,提速2至6倍,引起业内关注。图:新算法在不同开源大模型上的提速表现。这套新算法名为Lookahead推理加速框架,能做到效果无损,即插即用,该算法已在蚂蚁大量场景进行了落地,大幅降低了推理耗时。以Llama2-7B-chat模型与Dolly数据集为例,实测token生成速度可由48.2个/秒,升至112.9个/秒,提速2.34倍。而在蚂蚁内部的RAG(检索增强生成)数据集上,百灵大模型AntGLM 10B版本的加速比达到5.36,与此同时,显存增加和内存消耗几乎

近日,蚂蚁集团开源了一套新算法,可帮助大模型在推理时,提速2至6倍,引起业内关注。

蚂蚁集团开源新算法,可助大模型推理提速2-6倍

图:新算法在不同开源大模型上的提速表现。

这套新算法名为Lookahead推理加速框架,能做到效果无损,即插即用,该算法已在蚂蚁大量场景进行了落地,大幅降低了推理耗时。

以Llama2-7B-chat模型与Dolly数据集为例,实测token生成速度可由48.2个/秒,升至112.9个/秒,提速2.34倍。而在蚂蚁内部的RAG(检索增强生成)数据集上,百灵大模型AntGLM 10B版本的加速比达到5.36,与此同时,显存增加和内存消耗几乎可以忽略。

当下的大模型基本是基于自回归解码,每一步解码仅生成一个token,这种操作方式既浪费了GPU的并行处理能力,也导致用户体验延迟过高,影响使用流畅度。

举个例子,原来的token生成过程,就像早期中文输入法,只能一个字一个字“敲”出来,采用了蚂蚁的加速算法后,token生成就像联想输入法,有些整句可直接“蹦”出来。

此前业内有少量的优化算法,主要集中在如何生成更好的草稿(即猜测生成token的序列)上,但是实践证明草稿在超过30个token长度后,端到端的推理效率就无法进一步提高,但是这个长度远没有充分利用GPU的运算能力。

为了进一步压榨硬件性能,蚂蚁Lookahead推理加速算法采用了多分支的策略,即草稿序列不再仅仅包含一条分支,而是包含多条并行的分支,多条分支在一次前向过程中进行并行验证。因此可以在耗时基本不变的前提下,提高一次前向过程生成的token个数。

再进一步,蚂蚁Lookahead推理加速算法利用trie树存储和检索token序列,并将多条草稿中相同的父节点进行合并,进一步提高了计算效率。为了提高易用性,trie树的构建不依赖额外的草稿模型,只利用推理过程中的prompt及生成的回答进行动态构建,降低了用户的接入成本。

该算法现已在GitHub上开源(https://github.com/alipay/PainlessInferenceAcceleration),相关论文公布在ARXIV(https://arxiv.org/abs/2312.12728)。

公开信息显示,蚂蚁集团基于丰富的业务场景需求,在人工智能方向持续投入,布局了包括大模型、知识图谱、运筹优化、图学习、可信AI等技术领域。

相关资讯

覆盖97.6%泌尿就医人群,蚂蚁集团开源首个医疗专科推理数据集

12月28日,由信通院主办的“虹桥之源”大模型驱动数字经济新生态峰会在上海召开。会上,蚂蚁集团商业机器智能部总经理顾进杰介绍蚂蚁正式开源国内首个医疗专科推理数据集,这将提升大模型在医疗领域的专业性。图说:蚂蚁集团商业机器智能部总经理顾进杰介绍国内首个医疗专科推理数据集在医疗行业,通用型语言模型在应对医疗问诊时,会直接给出答案,而医生则会根据专业知识进行反复的症状探讨,才能给出答案。另外,大模型的幻觉问题和推理能力不足,当前高质量的中文医学专科数据集又较为稀缺,这对训练出色的医疗领域大模型提出了挑战。为克服这些难题,

OpenAI o1 非 GPT-4o 直接进化,在成本与性能上妥协

9 月 14 日消息,OpenAI 已经推出了新模型 OpenAI o1 的两大变体 ——o1-preview 与 o1-mini,这两款模型都有许多值得深入探讨的内容。人工智能专家西蒙・威利森(Simon Willison)专门发文,深入剖析了这些新模型背后的设计理念与实现细节,揭示了它们在技术上的独特优势与不足。威利森表示,o1 并不是简单的 GPT-4o 直接升级版,而是在强化“推理”能力的同时,做出了成本与性能上的权衡。1. 训练思维链OpenAI 的声明是一个很好的起点:“我们研发了一系列新型人工智能模型

70B 模型秒出 1000token,代码重写超越 GPT-4o,来自 OpenAI 投资的代码神器 Cursor 团队

70B 模型,秒出 1000token,换算成字符接近 4000!研究人员将 Llama3 进行了微调并引入加速算法,和原生版本相比,速度足足快出了快了 13 倍!不仅是快,在代码重写任务上的表现甚至超越了 GPT-4o。这项成果,来自爆火的 AI 编程神器 Cursor 背后团队 anysphere,OpenAI 也参与过投资。要知道在以快著称的推理加速框架 Groq 上,70B Llama3 的推理速度也不过每秒 300 多 token。Cursor 这样的速度,可以说是实现了近乎即时的完整代码文件编辑。有人直