PowerInfer

手机流畅运行 470 亿大模型：上交大发布 LLM 手机推理框架 PowerInfer-2，提速 29 倍
苹果一出手，在手机等移动设备上部署大模型不可避免地成为行业关注焦点。然而，目前在移动设备上运行的模型相对较小（苹果的是 3B，谷歌的是 2B），并且消耗大量内存，这在很大程度上限制了其应用场景。即使是苹果，目前也需要与 OpenAI 合作，通过将云端 GPT-4o 大模型嵌入到操作系统中来提供能力更强的服务。这样一来，苹果的混合方案引起了非常多关于数据隐私的讨论和争议，甚至马斯克都下场讨论。如果苹…
AI
- 8
- 0
汪淼6月12日
4090成A100平替？token生成速度只比A100低18%，上交大推理引擎火了
PowerInfer 使得在消费级硬件上运转 AI 更加高效。上海交大团队最新推出了超强 CPU/GPU LLM 高速推理引擎 PowerInfer。 PowerInfer 和 llama.cpp 都在相同的硬件上运转，并充分利用了 RTX 4090 上的 VRAM。这个推理引擎速度有多快？在单个 NVIDIA RTX 4090…
工程
- 25
- 0
机器之心23年12月21日
4090成A100平替？上交大推出推理引擎PowerInfer，token生成速率只比A100低18%
呆板之心报道呆板之心编辑部PowerInfer 使得在消费级硬件上运转 AI 更加高效。上海交大团队，刚刚推出超强 CPU/GPU LLM 高速推理引擎 PowerInfer。项目地址：：？在运转 Falcon (ReLU)-40B-FP16 的单个 RTX 4090 (24G) 上，PowerInfer 对比 llama.cpp 实现了 11 倍加速！PowerInfer 和 llama.cpp…
应用
- 39
- 0
机器之心23年12月20日

❯

个人中心

今日签到

搜索

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

我的优惠劵

_￥_优惠劵
使用时效：无法使用
使用时效：
之前
使用时效：永久有效

优惠劵ID：
×
限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]
所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×
删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部