cpu
微软开源 1.58bit 推理框架:千亿参数模型量化后单 CPU 可跑,速度每秒 5-7 个 token
微软开源 1bit 大模型推理框架!现在 1000 亿参数大模型量化后单 CPU 可跑,速度可达每秒 5-7 个 token。比如在苹果 M2 新品上运行 BitNet b1.58 3B 模型,be like:就是今年爆火论文 The Era of 1-bit LLMs 的官方代码实现,开源不到一周 GitHub 已揽获 7.9k Star。
10/22/2024 6:54:45 PM
汪淼
微软开源 bitnet.cpp 1-bit LLM 推理框架:不靠 GPU 可本地运行千亿参数 AI 模型,能耗最多降低 82.2%
科技媒体 marktechpost 昨日(10 月 18 日)发布博文,报道称微软公司开源了 bitnet.cpp,这是一个能够直接在 CPU 上运行、超高效的 1-bit 大语言模型(LLM)推理框架。用户通过 bitnet.cpp 框架,不需要借助 GPU,也能在本地设备上运行具有 1000 亿参数的大语言模型,实现 6.17 倍的速度提升,且能耗可以降低 82.2%。传统大语言模型通常需要庞大的 GPU 基础设施和大量电力,导致部署和维护成本高昂,而小型企业和个人用户因缺乏先进硬件而难以接触这些技术,而 bitnet.cpp 框架通过降低硬件要求,吸引更多用户以更低的成本使用 AI 技术。
10/19/2024 3:08:57 PM
故渊
手机跑大模型提速 4-5 倍:微软亚研院开源新技术 T-MAC,有 CPU 就行
有 CPU 就能跑大模型,性能甚至超过 NPU / GPU!没错,为了优化模型端侧部署,微软亚洲研究院提出了一种新技术 —— T-MAC。这项技术主打性价比,不仅能让端侧模型跑得更快,而且资源消耗量更少。咋做到的??在 CPU 上高效部署低比特大语言模型一般来说,要想在手机、PC、树莓派等端侧设备上使用大语言模型,我们需要解决存储和计算问题。常见的方法是模型量化,即将模型的参数量化到较低的比特数,比如 4 比特、3 比特甚至更低,这样模型所需的存储空间和计算资源就会减少。不过这也意味着,在执行推理时,需要进行混合精
8/9/2024 12:58:46 PM
汪淼
英伟达黄仁勋解读“CEO 数学”:花小钱,办大事
英伟达首席执行官黄仁勋日前在 2024 台北电脑展前夕提出了一个有趣的概念 ——“CEO 数学”。“买得越多,省得越多,” 黄仁勋在演讲中表示,“这就是 CEO 数学,它并不完全准确,但却很有效。”乍一听让人困惑?黄仁勋随后解释了这个概念的含义。他建议企业同时投资图形处理器 (GPU) 和中央处理器 (CPU)。这两种处理器可以协同工作,将任务完成时间从“100 个单位缩短到 1 个单位”。因此,从长远来看,增加投资反而能节省成本。这种结合使用 CPU 和 GPU 的做法在个人电脑领域已经很普遍。“我们往一台 10
6/3/2024 11:26:54 AM
远洋
4090成A100平替?上交大推出推理引擎PowerInfer,token生成速率只比A100低18%
机器之心报道机器之心编辑部PowerInfer 使得在消费级硬件上运行 AI 更加高效。上海交大团队,刚刚推出超强 CPU/GPU LLM 高速推理引擎 PowerInfer。项目地址::?在运行 Falcon (ReLU)-40B-FP16 的单个 RTX 4090 (24G) 上,PowerInfer 对比 llama.cpp 实现了 11 倍加速!PowerInfer 和 llama.cpp 都在相同的硬件上运行,并充分利用了 RTX 4090 上的 VRAM。在单个 NVIDIA RTX 4090 GPU
12/20/2023 6:01:00 PM
机器之心
AMD 的下一代 GPU 是 3D 集成的超级芯片:MI300 将 13 块硅片组合为一个芯片
编辑 | 白菜叶AMD 在近日的 AMD Advancing AI 活动中揭开了其下一代 AI 加速器芯片 Instinct MI300 的面纱,这是前所未有的 3D 集成壮举。MI300 将为 El Capitan 超级计算机提供动力,它是一个集计算、内存和通信于一体的夹层蛋糕,有三片硅片高,可以在这些硅平面之间垂直传输多达 17 TB 的数据。它可以使某些机器学习关键计算的速度提高 3.4 倍。该芯片与 Nvidia 的 Grace-Hopper 超级芯片和英特尔的超级计算机加速器 Ponte Vecchio
12/8/2023 3:56:00 PM
ScienceAI
专访AMD芯片架构师Sam Naffziger:Chiplet将如何影响芯片制造
这五年来,处理器领域发生的变化是深刻的,从单片硅芯片变成了小型 chiplet 的组合 —— 这些小型 chiplet 组合起来能像单片大芯片一样运作。
7/17/2023 5:20:00 PM
机器之心
谷歌、Facebook频繁发现CPU内核不可靠,出现无法预测计算错误
最近谷歌和 Facebook 两大公司频繁检测到 CPU 在一些情况下会以无法预测的方式出现计算错误。
6/8/2021 2:30:00 PM
机器之心
- 1
资讯热榜
企业级模型推理部署工具vllm使用指南 - 部署最新deepseek-v3-0324模型
上海AI实验室开源InternVL3系列多模态大型语言模型
50组多风格提示词,全面测评Midjourney V7生图效果!
全日程揭晓!ICLR 2025论文分享会我们北京见
斯坦福2025 AI指数出炉!中美AI对决差距仅剩0.3%,DeepSeek领衔
5分钟直出46页论文!谷歌Deep Research完爆OpenAI,最强Gemini 2.5加持
击败DeepSeek-R1!豆包新推理模型仅用前者参数量1/3!还将开源两个基准,瞄准通用推理能力!
ChatGPT重大更新,能翻出所有历史对话,网友被AI聊破防了
标签云
人工智能
OpenAI
AIGC
AI
ChatGPT
DeepSeek
AI绘画
数据
机器人
谷歌
模型
大模型
Midjourney
智能
用户
学习
开源
GPT
微软
Meta
AI创作
图像
技术
论文
Stable Diffusion
马斯克
Gemini
算法
蛋白质
生成式
芯片
代码
英伟达
神经网络
腾讯
计算
研究
Sora
AI for Science
3D
AI设计
Anthropic
机器学习
GPU
开发者
场景
华为
预测
伟达
Transformer
百度
深度学习
苹果
模态
AI视频
驾驶
文本
xAI
搜索
人形机器人
大语言模型
Copilot
神器推荐
LLaMA
字节跳动
具身智能
Claude
算力
安全
应用
视频生成
科技
视觉
亚马逊
干货合集
2024
AGI
特斯拉
DeepMind
训练