OmniQuant
ICLR 2024 Spotlight | 大语言模型权重、激活的全方位低bit可微量化,已集成进商用APP
模型量化是模型压缩与加速中的一项关键技术,其将模型权重与激活值量化至低 bit,以允许模型占用更少的内存开销并加快推理速度。对于具有海量参数的大语言模型而言,模型量化显得更加重要。例如,GPT-3 模型的 175B 参数当使用 FP16 格式加载时,需消耗 350GB 的内存,需要至少 5 张 80GB 的 A100 GPU。但若是可以将 GPT-3 模型的权重压缩至 3bit,则可以实现单张 A100-80GB 完成所有模型权重的加载。现有的大语言模型后训练量化算法依赖于手工制定量化参数,优于缺乏相应的优化过程,
3/7/2024 2:46:00 PM
机器之心
- 1
资讯热榜
标签云
人工智能
AIGC
OpenAI
AI绘画
ChatGPT
数据
机器人
DeepSeek
谷歌
AI
Midjourney
智能
大模型
学习
GPT
用户
微软
AI创作
开源
图像
Meta
技术
论文
Stable Diffusion
模型
马斯克
算法
生成式
蛋白质
芯片
Gemini
计算
代码
神经网络
研究
腾讯
AI设计
Sora
3D
GPU
英伟达
开发者
场景
机器学习
伟达
预测
华为
模态
Transformer
AI for Science
文本
驾驶
深度学习
AI视频
百度
神器推荐
苹果
搜索
LLaMA
算力
视频生成
干货合集
Anthropic
Copilot
科技
2024
应用
安全
xAI
特斯拉
具身智能
AI应用场景
写作
机器
字节跳动
人形机器人
AGI
DeepMind
视觉
架构