浪潮信息发布源 2.0-M32 大模型 4bit / 8bit 量化版:运行显存仅需 23GB,号称性能媲美 LLaMA3

浪潮信息今日发布源 2.0-M32 大模型 4bit 和 8bit 量化版,性能号称“比肩 700 亿参数的 LLaMA3 开源大模型”。4bit 量化版推理运行显存仅需 23.27GB,处理每 token 所需算力约为 1.9 GFLOPs,算力消耗仅为同等当量大模型 LLaMA3-70B 的 1/80。而 LLaMA3-70B 运行显存为 160GB,所需算力为 140GFLOPs。据浪潮信息介绍,源 2.0-M32 量化版是“源”大模型团队为进一步提高模算效率,降低大模型部署运行的计算资源要求而推出的版本,将

浪潮信息今日发布源 2.0-M32 大模型 4bit 和 8bit 量化版,性能号称“比肩 700 亿参数的 LLaMA3 开源大模型”。

4bit 量化版推理运行显存仅需 23.27GB,处理每 token 所需算力约为 1.9 GFLOPs,算力消耗仅为同等当量大模型 LLaMA3-70B 的 1/80。而 LLaMA3-70B 运行显存为 160GB,所需算力为 140GFLOPs。

据浪潮信息介绍,源 2.0-M32 量化版是“源”大模型团队为进一步提高模算效率,降低大模型部署运行的计算资源要求而推出的版本,将原模型精度量化至 int4 和 int8 级别,并保持模型性能基本不变

源 2.0-M32 大模型是浪潮信息“源 2.0”系列大模型的最新版本,构建包含 32 个专家(Expert)的混合专家模型(MoE),模型运行时激活参数为 37 亿。

评测结果显示,源 2.0-M32 量化版在 MATH(数学竞赛)、ARC-C(科学推理)任务中,性能超过了 700 亿参数的 LLaMA3 大模型。

图片

源 2.0-M32 量化版已开源,AI在线附下载链接如下:

Hugging Face 平台下载链接

https://huggingface.co/IEITYuan/Yuan2-M32-gguf-int4

https://huggingface.co/IEITYuan/Yuan2-M32-hf-int4

https://huggingface.co/IEITYuan/Yuan2-M32-hf-int8

modelscope 平台下载链接

https://modelscope.cn/models/IEITYuan/Yuan2-M32-gguf-int4

https://modelscope.cn/models/IEITYuan/Yuan2-M32-HF-INT4

https://modelscope.cn/models/IEITYuan/Yuan2-M32-hf-int8

相关资讯

首批中文版Llama3模型来了,解释成语、答弱智吧问题

中文问题,中文回答。最近,Meta 推出了 Llama 3,为开源大模型树立了新的标杆。和以往的原始 Llama 模型一样,Llama 3 对中文的支持效果欠佳,经常会出现你用中文提问,它用英文或中文 英文回复的现象。因此,要想让国内用户用上该模型,开发者还需对其进行微调。最近,在 Github 以及 HuggingFace 平台上,我们已经陆陆续续地看到了一些这样的项目,比如 llama3-Chinese-chat 和 Llama3-8B-Chinese-Chat。这篇文章将逐一介绍。llama3-Chinese

斯坦福爆火Llama3-V竟抄袭国内开源项目,作者火速删库

斯坦福 Llama3-V vs 清华 MiniCPM-Llama3-V-2.5在 GPT-4o 出世后,Llama3 的风头被狠狠盖过。GPT-4o 在图像识别、语音理解上卓越的性能展现了它强大多模态能力。开源领域的领头羊 Llama3 曾在几乎所有基准测试中都超越了 GPT-3.5,甚至在某些方面超越了 GPT-4。这次就要闷声「吃瘪」了吗?5 月 29 日,一个来自斯坦福的研究团队发布了一个能够「改变现状」的产品:Llama3-V,号称只要 500 美元(约为人民币 3650 元),就能基于 Llama3 训练

70B 模型秒出 1000token,代码重写超越 GPT-4o,来自 OpenAI 投资的代码神器 Cursor 团队

70B 模型,秒出 1000token,换算成字符接近 4000!研究人员将 Llama3 进行了微调并引入加速算法,和原生版本相比,速度足足快出了快了 13 倍!不仅是快,在代码重写任务上的表现甚至超越了 GPT-4o。这项成果,来自爆火的 AI 编程神器 Cursor 背后团队 anysphere,OpenAI 也参与过投资。要知道在以快著称的推理加速框架 Groq 上,70B Llama3 的推理速度也不过每秒 300 多 token。Cursor 这样的速度,可以说是实现了近乎即时的完整代码文件编辑。有人直