通义新一代轻量化大语言模型DistilQwen2.5 发布 提升性能与效率

在大语言模型逐渐普及的今天,如何在资源受限的环境中实现高效部署已成为重要课题。 为了解决这一挑战,基于 Qwen2.5的轻量化大模型系列 DistilQwen2.5正式发布。 该模型采用了创新的双层蒸馏框架,通过优化数据和参数融合技术,不仅保留了模型的性能,同时显著降低了计算资源的消耗。

在大语言模型逐渐普及的今天,如何在资源受限的环境中实现高效部署已成为重要课题。为了解决这一挑战,基于 Qwen2.5的轻量化大模型系列 DistilQwen2.5正式发布。该模型采用了创新的双层蒸馏框架,通过优化数据和参数融合技术,不仅保留了模型的性能,同时显著降低了计算资源的消耗。

image.png

DistilQwen2.5的成功得益于其独特的知识蒸馏技术。这一过程首先需要大量高质量的指令数据,这些数据来自多个开源数据集及私有合成数据集。为确保数据的多样性,研究团队通过 Qwen-max 扩展了中英文数据,从而实现了任务和语言的均衡。此后,模型通过采用 “黑盒化蒸馏” 的方式,利用教师模型的输出进行指令的扩展、选择与改写。这种方法不仅提升了数据的质量,还增强了模型的多任务处理能力。

image.png

值得注意的是,DistilQwen2.5还引入了白盒化蒸馏技术,通过模仿教师模型的 its 分布,使得学生模型在知识获取上更为高效。这种技术避免了传统白盒化蒸馏面临的 GPU 内存消耗、存储与读取速度慢等问题。

经过多个权威指令遵循评测基准的测试,DistilQwen2.5的表现令人瞩目,尤其是在 AlpacaEval2.0和 MT-Bench 的评测中表现优异。这标志着轻量化大语言模型的发展进入了一个新的阶段,能够在保证性能的前提下,大幅降低计算成本,进一步推动了 AI 技术在各种应用场景中的落地。

DistilQwen2.5的开源发布也将为更多开发者提供便利,使他们能更轻松地使用这一强大的工具,为人工智能技术的普及贡献力量。

相关资讯

原来,这些顶级大模型都是蒸馏的

「除了 Claude、豆包和 Gemini 之外,知名的闭源和开源 LLM 通常表现出很高的蒸馏度。 」这是中国科学院深圳先进技术研究院、北大、零一万物等机构的研究者在一篇新论文中得出的结论。 前段时间,一位海外技术分析师在一篇博客中提出了一个猜想:一些顶级的 AI 科技公司可能已经构建出了非常智能的模型,比如 OpenAI 可能构建出了 GPT-5,Claude 构建出了 Opus 3.5。

上交大o1复现新突破:蒸馏超越原版,警示AI研发"捷径陷阱"

AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。

Meta开发System 2蒸馏技术,Llama 2对话模型任务准确率接近100%

研究者表示,如果 Sytem 2 蒸馏可以成为未来持续学习 AI 系统的重要特征,则可以进一步提升 System 2 表现不那么好的推理任务的性能。谈到大语言模型(LLM)的策略,一般来说有两种,一种是即时的 System 1(快速反应),另一种是 System 2(慢速思考)。其中 System 2 推理倾向于深思熟虑的思维,生成中间思维允许模型(或人类)进行推理和规划,以便成功完成任务或响应指令。在 System 2 推理中,需要付出努力的心理活动,尤其是在 System 1(更自动化思维)可能出错的情况下。因