模型量化

ICLR 2024 Spotlight | 大言语模型权重、激活的全方位低bit可微量化，已集成进商用APP
模型量化是模型压缩与加速中的一项关键技术，其将模型权重与激活值量化至低 bit，以允许模型占用更少的内存开支并加快推理速度。对于具有海量参数的大言语模型而言，模型量化显得更加重要。例如，GPT-3 模型的 175B 参数当使用 FP16 格式加载时，需消耗 350GB 的内存，需要至少 5 张 80GB 的 A100 GPU。但若是可以将 GPT-3 模型的权重压缩至 3bit，则可以实现单张 A…
工程
- 4
- 0
机器之心3月7日
清华、哈工大把大模型紧缩到了1bit，把大模型放在手机里跑的愿望就快要实现了！
近期，清华大学和哈尔滨工业大学联合发布了一篇论文：把大模型紧缩到 1.0073 个比特时，仍然能使其保持约 83% 的本能！自从大模型火爆出圈以后，人们对紧缩大模型的愿望从未消减。这是因为，虽然大模型在很多方面表现出优秀的威力，但高昂的的部署代价极大提升了它的使用门槛。这种代价主要来自于空间占用和计算量。「模型量化」通过把大模型的参数转化为低位宽的表示，进而节省空间占用。目前，主流格式可以在几乎…
应用
- 3
- 0
机器之心3月4日

❯

个人中心

今日签到

搜索

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

我的优惠劵

_￥_优惠劵
使用时效：无法使用
使用时效：
之前
使用时效：永久有效

优惠劵ID：
×
限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]
所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×
删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部