浪潮信息发布源 2.0-M32 大模型 4bit / 8bit 量化版：运行显存仅需 23GB，号称性能媲美 LLaMA3

应用
8月23日
编辑

汪淼

浪潮信息今日发布源 2.0-M32 大模型 4bit 和 8bit 量化版，性能号称“比肩 700 亿参数的 LLaMA3 开源大模型”。4bit 量化版推理运行显存仅需 23.27GB，处理每 token 所需算力约为 1.9 GFLOPs，算力消耗仅为同等当量大模型 LLaMA3-70B 的 1/80。而 LLaMA3-70B 运行显存为 160GB，所需算力为 140GFLOPs。据浪潮信息介绍，源 2.0-M32 量化版是“源”大模型团队为进一步提高模算效率，降低大模型部署运行的计算资源要求而推出的版本，将

浪潮信息今日发布源 2.0-M32 大模型 4bit 和 8bit 量化版，性能号称“比肩 700 亿参数的 LLaMA3 开源大模型”。

4bit 量化版推理运行显存仅需 23.27GB，处理每 token 所需算力约为 1.9 GFLOPs，算力消耗仅为同等当量大模型 LLaMA3-70B 的 1/80。而 LLaMA3-70B 运行显存为 160GB，所需算力为 140GFLOPs。

据浪潮信息介绍，源 2.0-M32 量化版是“源”大模型团队为进一步提高模算效率，降低大模型部署运行的计算资源要求而推出的版本，将原模型精度量化至 int4 和 int8 级别，并保持模型性能基本不变。

源 2.0-M32 大模型是浪潮信息“源 2.0”系列大模型的最新版本，构建包含 32 个专家（Expert）的混合专家模型（MoE），模型运行时激活参数为 37 亿。

评测结果显示，源 2.0-M32 量化版在 MATH（数学竞赛）、ARC-C（科学推理）任务中，性能超过了 700 亿参数的 LLaMA3 大模型。

浪潮信息发布源 2.0-M32 大模型 4bit / 8bit 量化版：运行显存仅需 23GB，号称性能媲美 LLaMA3

源 2.0-M32 量化版已开源，AI在线附下载链接如下：

Hugging Face 平台下载链接

https://huggingface.co/IEITYuan/Yuan2-M32-gguf-int4

https://huggingface.co/IEITYuan/Yuan2-M32-hf-int4

https://huggingface.co/IEITYuan/Yuan2-M32-hf-int8

modelscope 平台下载链接

https://modelscope.cn/models/IEITYuan/Yuan2-M32-gguf-int4

https://modelscope.cn/models/IEITYuan/Yuan2-M32-HF-INT4

https://modelscope.cn/models/IEITYuan/Yuan2-M32-hf-int8

{{userData.name}}已认证

浪潮信息发布源 2.0-M32 大模型 4bit / 8bit 量化版：运行显存仅需 23GB，号称性能媲美 LLaMA3

文生图 AI 工具 Midjourney 开放网页版，新用户附赠 25 张免费试用额度

在 AI 最火热的时候，AI 大牛田渊栋写了本小说《破晓之钟》

钉钉AI重磅更新：深入业务场景，上线工单等场景AI助理

AI 开始“卷”智能体：OpenAI 被曝明年将推 Operator，可控制电脑、独立执行任务

Red Hat 收购 Neural Magic 并开源其技术：优化通用设备 AI 性能，可媲美专用芯片

谷歌扩大 AI 洪水预警系统覆盖范围，惠及全球 7 亿人

OpenAI 联合创始人回来了，还是总裁，将更专注重大技术挑战

AI解锁500多年的圣殿，米开朗基罗杰作，你我触手可及

全球首个：英伟达与软银试运行“AI+5G” 电信网络，号称投资 1 美元收入 5 美元

Scaling Laws终结，量化无用，AI大佬都在审视这篇论文