蒸馏

通义新一代轻量化大语言模型DistilQwen2.5 发布提升性能与效率

在大语言模型逐渐普及的今天，如何在资源受限的环境中实现高效部署已成为重要课题。为了解决这一挑战，基于 Qwen2.5的轻量化大模型系列 DistilQwen2.5正式发布。该模型采用了创新的双层蒸馏框架，通过优化数据和参数融合技术，不仅保留了模型的性能，同时显著降低了计算资源的消耗。

2/26/2025 4:58:00 PM

AI在线

原来，这些顶级大模型都是蒸馏的

「除了 Claude、豆包和 Gemini 之外，知名的闭源和开源 LLM 通常表现出很高的蒸馏度。」这是中国科学院深圳先进技术研究院、北大、零一万物等机构的研究者在一篇新论文中得出的结论。前段时间，一位海外技术分析师在一篇博客中提出了一个猜想：一些顶级的 AI 科技公司可能已经构建出了非常智能的模型，比如 OpenAI 可能构建出了 GPT-5，Claude 构建出了 Opus 3.5。

1/29/2025 6:40:00 PM

机器之心

「知识蒸馏+持续学习」最新综述！哈工大、中科院出品：全新分类体系，十大数据集全面实验

知识蒸馏（Knowledge Distillation, KD）已逐渐成为持续学习（Continual Learning, CL）应对灾难性遗忘的常见方法。然而，尽管KD在减轻遗忘方面取得了一定成果，关于KD在持续学习中的应用及其有效性仍然缺乏深入的探索。图1 知识蒸馏在持续学习中的使用目前，大多数现有的持续学习综述主要从不同方法的分类角度出发，聚焦于图像分类领域或其他应用领域，很少有综述文章专门探讨如何通过具体技术（如知识蒸馏）来缓解持续学习中的遗忘问题。

1/10/2025 12:00:00 AM

新智元