cpu

微软开源 1.58bit 推理框架：千亿参数模型量化后单 CPU 可跑，速度每秒 5-7 个 token

微软开源 1bit 大模型推理框架！现在 1000 亿参数大模型量化后单 CPU 可跑，速度可达每秒 5-7 个 token。比如在苹果 M2 新品上运行 BitNet b1.58 3B 模型，be like：就是今年爆火论文 The Era of 1-bit LLMs 的官方代码实现，开源不到一周 GitHub 已揽获 7.9k Star。

10/22/2024 6:54:45 PM

汪淼

微软开源 bitnet.cpp 1-bit LLM 推理框架：不靠 GPU 可本地运行千亿参数 AI 模型，能耗最多降低 82.2%

科技媒体 marktechpost 昨日（10 月 18 日）发布博文，报道称微软公司开源了 bitnet.cpp，这是一个能够直接在 CPU 上运行、超高效的 1-bit 大语言模型（LLM）推理框架。用户通过 bitnet.cpp 框架，不需要借助 GPU，也能在本地设备上运行具有 1000 亿参数的大语言模型，实现 6.17 倍的速度提升，且能耗可以降低 82.2%。传统大语言模型通常需要庞大的 GPU 基础设施和大量电力，导致部署和维护成本高昂，而小型企业和个人用户因缺乏先进硬件而难以接触这些技术，而 bitnet.cpp 框架通过降低硬件要求，吸引更多用户以更低的成本使用 AI 技术。

10/19/2024 3:08:57 PM

故渊

手机跑大模型提速 4-5 倍：微软亚研院开源新技术 T-MAC，有 CPU 就行

有 CPU 就能跑大模型，性能甚至超过 NPU / GPU！没错，为了优化模型端侧部署，微软亚洲研究院提出了一种新技术 —— T-MAC。这项技术主打性价比，不仅能让端侧模型跑得更快，而且资源消耗量更少。咋做到的？？在 CPU 上高效部署低比特大语言模型一般来说，要想在手机、PC、树莓派等端侧设备上使用大语言模型，我们需要解决存储和计算问题。常见的方法是模型量化，即将模型的参数量化到较低的比特数，比如 4 比特、3 比特甚至更低，这样模型所需的存储空间和计算资源就会减少。不过这也意味着，在执行推理时，需要进行混合精

8/9/2024 12:58:46 PM

汪淼

英伟达黄仁勋解读“CEO 数学”：花小钱，办大事

英伟达首席执行官黄仁勋日前在 2024 台北电脑展前夕提出了一个有趣的概念 ——“CEO 数学”。“买得越多，省得越多，” 黄仁勋在演讲中表示，“这就是 CEO 数学，它并不完全准确，但却很有效。”乍一听让人困惑？黄仁勋随后解释了这个概念的含义。他建议企业同时投资图形处理器 (GPU) 和中央处理器 (CPU)。这两种处理器可以协同工作，将任务完成时间从“100 个单位缩短到 1 个单位”。因此，从长远来看，增加投资反而能节省成本。这种结合使用 CPU 和 GPU 的做法在个人电脑领域已经很普遍。“我们往一台 10

6/3/2024 11:26:54 AM

远洋

4090成A100平替？上交大推出推理引擎PowerInfer，token生成速率只比A100低18%

机器之心报道机器之心编辑部PowerInfer 使得在消费级硬件上运行 AI 更加高效。上海交大团队，刚刚推出超强 CPU/GPU LLM 高速推理引擎 PowerInfer。项目地址：：？在运行 Falcon (ReLU)-40B-FP16 的单个 RTX 4090 (24G) 上，PowerInfer 对比 llama.cpp 实现了 11 倍加速！PowerInfer 和 llama.cpp 都在相同的硬件上运行，并充分利用了 RTX 4090 上的 VRAM。在单个 NVIDIA RTX 4090 GPU

12/20/2023 6:01:00 PM

机器之心

AMD 的下一代 GPU 是 3D 集成的超级芯片：MI300 将 13 块硅片组合为一个芯片

编辑 | 白菜叶AMD 在近日的 AMD Advancing AI 活动中揭开了其下一代 AI 加速器芯片 Instinct MI300 的面纱，这是前所未有的 3D 集成壮举。MI300 将为 El Capitan 超级计算机提供动力，它是一个集计算、内存和通信于一体的夹层蛋糕，有三片硅片高，可以在这些硅平面之间垂直传输多达 17 TB 的数据。它可以使某些机器学习关键计算的速度提高 3.4 倍。该芯片与 Nvidia 的 Grace-Hopper 超级芯片和英特尔的超级计算机加速器 Ponte Vecchio

12/8/2023 3:56:00 PM

ScienceAI