知识蒸馏

榨干每一分算力：Distillation Scaling Laws带你走进高效模型新时代

初次阅读这篇文章，感到非常震撼。在DeepSeek将知识蒸馏方法带入大众视野后，Apple与牛津大学的研究人员迅速提出了蒸馏缩放定律，并已于2月28日完成了所有实验及一篇长达67页的论文上传至arXiv。这种效率和深度，无疑展示了大公司的研究实力。

2/27/2025 12:42:54 PM

Gloadma

被DeepSeek带火的知识蒸馏详解！

今天来详细了解DeepSeek中提到的知识蒸馏技术，主要内容来自三巨头之一Geoffrey Hinton的一篇经典工作：。主要从背景、定义、原理、代码复现等几个方面来介绍：1、背景介绍训练与部署的不一致性在机器学习和深度学习领域，训练模型和部署模型通常存在显著差异。训练阶段，为了追求最佳性能，我们通常会使用复杂的模型架构和大量的计算资源，从海量且高度冗余的数据集中提取有用信息。

2/27/2025 10:41:53 AM

Glodma

Springer知识蒸馏专著解读 | 面向图像识别的知识蒸馏综述

本次文章介绍我们发表于由Springer出版的专著《Advancements in Knowledge Distillation: Towards New Horizons of Intelligent Systems 》中的第一章“Categories of Response-Based, Feature-Based, and Relation-Based Knowledge Distillation”。该篇文章的主要内容是整理了面向图像识别的知识蒸馏的相关工作，首先在response-based、feature-based和relation-based三种知识形式来介绍离线知识蒸馏的相关工作，然后整理了在线知识蒸馏和自知识蒸馏的相关工作，在其中也对自监督学习蒸馏和视觉Transformer（ViT）蒸馏也进行了介绍。最后讲解了扩展的蒸馏技术领域，包括多教师知识蒸馏、跨模态知识蒸馏、注意力机制知识蒸馏、无数据知识蒸馏和对抗知识蒸馏。

2/19/2025 5:20:00 PM

机器之心

总结374篇相关工作，陶大程团队联合港大、UMD发布LLM知识蒸馏最新综述

大语言模型（Large Language Models, LLMs）在过去两年内迅速发展，涌现出一些现象级的模型和产品，如 GPT-4、Gemini、Claude 等，但大多数是闭源的。研究界目前能接触到的大部分开源 LLMs 与闭源 LLMs 存在较大差距，因此提升开源 LLMs 及其他小模型的能力以减小其与闭源大模型的差距成为了该领域的研究热点。LLM 的强大能力，特别是闭源 LLM，使得科研人员和工业界的从业者在训练自己的模型时都会利用到这些大模型的输出和知识。这一过程本质上是知识蒸馏（Knowledge,

3/18/2024 11:09:00 AM

机器之心

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片 OPPO 小布助手网页版上线，接入满血版 DeepSeek 本地部署DeepSeek+DiFy平台构建智能体应用 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果人形机器人深度学习 AI视频模态 xAI 驾驶字节跳动文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型