Distillation Scaling Laws
苹果也在蒸馏大模型,给出了蒸馏Scaling Laws
蒸馏模型的性能可以量化估算了。 众所周知,知识蒸馏技术当前正被大模型领域广泛使用,它可以在大幅压缩模型体量的同时保持一定的性能、降低模型时延、提升模型精度,与此同时还能对知识域进行集成和迁移。 近日,苹果研究人员提出了一种蒸馏扩展定律(Distillation Scaling Laws),基于计算预算及其在学生和教师之间的分配,我们现在开始可以估算蒸馏模型的性能了。
2/14/2025 1:11:00 PM
机器之心
- 1
资讯热榜
标签云
人工智能
OpenAI
AIGC
AI
ChatGPT
AI绘画
DeepSeek
数据
机器人
谷歌
大模型
模型
Midjourney
智能
学习
用户
GPT
开源
微软
AI创作
Meta
图像
技术
论文
Stable Diffusion
马斯克
算法
Gemini
生成式
蛋白质
芯片
代码
神经网络
腾讯
计算
研究
英伟达
Sora
AI设计
AI for Science
3D
GPU
机器学习
开发者
场景
华为
Anthropic
预测
伟达
Transformer
模态
百度
深度学习
苹果
AI视频
驾驶
文本
搜索
神器推荐
xAI
Copilot
LLaMA
算力
人形机器人
具身智能
安全
大语言模型
应用
科技
字节跳动
视频生成
干货合集
2024
Claude
视觉
AGI
特斯拉
亚马逊
语音
架构