AI在线 AI在线

刚刚,Qwen3强势登顶,成开源新王!国内首个混合推理模型,235B击败R1、o1!源神火力全开:全系列8个模型一口气开源!

作者:伊风
2025-04-29 07:39
编辑 | 伊风出品 | 51CTO技术栈(微信号:blog51cto)源神 Qwen3 赶在五一假期前重磅上线! 这次 Qwen3 直接放出了一整个“全家桶” ——总共 8 个模型,包括 2 个 MoE(稀疏专家)模型和 6 个稠密模型,规模从 0.6B 到 235B 不等,阵容堪称豪华。 图片其中,旗舰模型 Qwen3-235B-A22B 强势登顶,成为新一代开源之王!

编辑 | 伊风

出品 | 51CTO技术栈(微信号:blog51cto)

源神 Qwen3 赶在五一假期前重磅上线!

这次 Qwen3 直接放出了一整个“全家桶” ——总共 8 个模型,包括 2 个 MoE(稀疏专家)模型和 6 个稠密模型,规模从 0.6B 到 235B 不等,阵容堪称豪华。

图片图片

其中,旗舰模型 Qwen3-235B-A22B 强势登顶,成为新一代开源之王!在编码、数学、通用能力等多个基准评测中,表现可与 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等顶尖模型媲美。

图片图片

不仅大模型强,小型号也一样能打。小型 MoE 模型 Qwen3-30B-A3B,虽然激活参数量仅有 QwQ-32B 的十分之一,却实现了全面反超;而轻量级 Qwen3-4B,也几乎达到了 Qwen2.5-72B-Instruct 的水平。

图片图片

Qwen3当然也是惯例的上线即开源,并且其网页端已经可以体验该系列中最强大的几个模型!

  • Hugging Face:

https://huggingface.co/collections/Qwen/qwen3-67dd247413f0e2e4f653967f

  • Qwen Chat Web:

https://chat.qwen.ai/  

图片图片

点进 Hugging Face 的 Qwen3 页面你会发现,模型列表比想象中还要长得多!这次源神不仅开源了完整模型,还贴心放出了部分对应的预训练版本!

比如 Qwen3-30B-A3B,它的预训练版 Qwen3-30B-A3B-Base 也一并上线了,现在已经可以在 Hugging Face、ModelScope、Kaggle 等平台上使用。

图片图片

Qwen3 blog中还贴心给到了部署建议,对于部署,建议使用SGLang和vLLM这样的框架。对于本地使用,强烈建议使用Ollama、LMStudio、MLX、llama.cpp和KTransformers等工具。

昨晚,国内外一大批关注开源的开发者们,熬夜苦等到凌晨,只为了这句话——终于等到了!

图片图片

Qwen3特性亮点:混合推理模型、双模式按需切换、MCP支持全面升级!

以下是官方总结的Qwen3的最强亮点。

1.混合思维模式

Qwen3 系列模型引入了混合式问题解决方法,支持两种推理模式:

  • 思考模式:模型会一步步推理后再给出最终答案,适合需要深入思考的复杂问题。
  • 非思考模式:模型快速、几乎即时地响应,适合对速度要求更高、无需复杂推理的简单问题。

这种灵活的设计,让用户可以根据任务需求,自由控制模型的“思考量”。比如,遇到难题时启用更充分的推理流程,而在处理简单问题时则可以直接快速作答。

当然,这样就实现了更好更便宜——双模式集成显著提升了模型在推理预算管理上的稳定性与效率。用户可以根据实际需求,轻松调整推理预算,在成本和推理质量之间拿捏得更精准。

图片图片

2.多语言支持

Qwen3 一口气支持了119种语言和方言,这一规模,足以让全球用户在刚上线的 Qwen APP 中畅通无阻地体验新一代大模型。真正实现了“让世界各地的人都能用上”的愿景!

原blog中列出了全语言的清单,其中不乏闻所未闻的冷门印欧系语言,如迈蒂利语、博杰普尔语、信德语等;在汉藏语系中则支持中文(简体中文、繁体中文、粤语)和缅甸语。

3.智能体能力提升

Qwen3 模型的编码能力和智能体(Agentic)能力进行了优化,并进一步增强了对 MCP(多智能体协作协议)的支持。

在给出的视频demo里,提问者给模型一个Qwen的开源主页,要求提取页面的 Markdown 内容,并绘制一张柱状图展示每个项目的 star 数量。模型出色地完成了思考,并最终通过MCP协议主动把柱状图保存到了本地文件中。

图片图片

刚刚,Qwen3强势登顶,成开源新王!国内首个混合推理模型,235B击败R1、o1!源神火力全开:全系列8个模型一口气开源!

Qwen3是如何练成的:三阶段预训练和四阶段后训揭秘

在预训练方面,Qwen3 的数据集相比 Qwen2.5 有了大幅扩展。Qwen2.5 的预训练量为 18 万亿 tokens,而 Qwen3 直接翻倍,使用了约 36 万亿 tokens,覆盖了 119 种语言和方言。

为了构建这一超大规模数据集,团队人员不仅收集了网页数据,还纳入了大量类似 PDF 的文档数据。

在处理文档数据时,他们使用 Qwen2.5-VL 进行文本抽取,再用 Qwen2.5 提升抽取内容的质量。为了增加数学与代码数据的比例,还利用 Qwen2.5-Math 和 Qwen2.5-Coder 生成了大量合成数据,涵盖教科书内容、问答对和代码片段。

Qwen3 的预训练过程分为三个阶段:

  • 第一阶段(S1):在超过 30 万亿 tokens 上进行预训练,采用 4K tokens 的上下文长度,为模型打下了基本的语言能力和通识知识基础。
  • 第二阶段(S2):提升数据集的知识密集度,增加了更多 STEM、编码与推理相关的数据,新增预训练了 5 万亿 tokens。
  • 第三阶段:引入高质量的长上下文数据,将模型的上下文长度扩展到 32K tokens,确保能够有效处理更长的输入。

图片图片

得益于模型架构的优化、训练数据量的提升以及训练方法的改进,Qwen3 的稠密基础模型在整体性能上达到了参数量更大的 Qwen2.5 基础模型的水平。例如,Qwen3-1.7B/4B/8B/14B/32B-Base 分别对标 Qwen2.5-3B/7B/14B/32B/72B-Base。

特别是在 STEM、编码和推理领域,Qwen3 的稠密模型甚至可以超越更大规模的 Qwen2.5 模型。

至于 Qwen3 的 MoE 基础模型,它们在只使用约 10% 激活参数量的情况下,实现了与 Qwen2.5 稠密基础模型相当的性能,大幅降低了训练和推理成本。

在后训练方面,为了打造兼具逐步推理能力和快速响应能力的混合模型,Qwen3 采用了四阶段训练流程,包括:

  1. 长链式思考(CoT)冷启动
  2. 基于推理的强化学习(RL)
  3. 思考模式与非思考模式融合
  4. 通用领域强化学习

图片图片

在第一阶段,使用覆盖数学、编码、逻辑推理和 STEM 问题等多领域、多任务的长链式推理数据,对模型进行微调,奠定了基础推理能力。

第二阶段,放大了推理阶段的计算资源投入,结合基于规则的奖励信号,提升了模型的探索与利用能力。

第三阶段,将非思考模式融入到已有思考模式中,使用长链推理数据与常规指令微调数据的混合数据进行微调,这部分数据是由第二阶段强化后的思考模型生成的,确保了推理与快答能力的自然融合。

最后,在第四阶段,针对 20 多个通用领域任务进一步进行强化学习,包括指令遵循、格式遵循、智能体能力等,全面提升模型的通用能力并修正不良行为。

写在最后:从“训练模型”的时代,加速过渡到“训练智能体”的新时代

在整个blog的最后,Qwen表示还将持续进化,向着“扩大数据规模、增加模型参数量、延长上下文长度、拓展多模态能力”的方向进发,同时通过环境反馈推动强化学习,支持更长链条的推理能力。

从模型到智能体的跨越,正在加速到来。未来,基础模型的每一次进化,都不仅是参数的跃迁,更是智能边界的扩张。新的征程已经启航,让我们一起见证!

相关标签:

相关资讯

Anthropic 推出新一代混合推理模型 Claude 3.7 Sonnet:该公司“最智能”AI 模型

Anthropic发布Claude 3.7 Sonnet,这是其最智能的AI模型,结合了推理模式和传统模式,能处理更复杂的问题。新模型在数学和编码等领域表现优异,且运行成本与前代相同。此外,Anthropic还推出了Claude Code的有限研究预览版,提升编程效率。#AI技术# #人工智能#
2/25/2025 6:51:59 AM
远洋

性能与效率的双赢:Qwen3横空出世,MoE架构大幅降低部署成本

阿里云旗下通义千问(Qwen)团队正式发布Qwen3系列模型,共推出8款不同规格的模型,覆盖从移动设备到大型服务器的全部应用场景。 这是国内首个全面超越DeepSeek R1的开源模型,也是首个配备混合思维模式的国产模型。 模型阵容丰富,满足各类部署需求Qwen3系列包含6款Dense模型和2款MoE模型:Dense模型:0.6B、1.7B、4B、8B、14B、32BMoE模型:Qwen3-235B-A22B (总参数235B,激活参数22B)Qwen3-30B-A3B (总参数30B,激活参数3B)所有模型均支持128K上下文窗口,并配备了可手动控制的"thinking"开关,实现混合思维模式。
4/29/2025 4:00:41 PM
AI在线

深夜突袭,阿里Qwen3登顶全球开源王座!暴击DeepSeek-R1,2小时狂揽17k星

就在今天凌晨,备受全球期待的阿里新一代通义千问模型Qwen3开源! 一经问世,它立刻登顶全球最强开源模型王座。 它的参数量仅为DeepSeek-R1的1/3,但成本大幅下降,性能全面超越R1、OpenAI-o1等全球顶尖模型。
4/29/2025 8:14:14 AM
新智元
  • 1