刚刚，Qwen3强势登顶，成开源新王！国内首个混合推理模型，235B击败R1、o1!源神火力全开：全系列8个模型一口气开源！

2025-04-29 07:39

编辑 | 伊风出品 | 51CTO技术栈（微信号：blog51cto）源神 Qwen3 赶在五一假期前重磅上线！这次 Qwen3 直接放出了一整个“全家桶” ——总共 8 个模型，包括 2 个 MoE（稀疏专家）模型和 6 个稠密模型，规模从 0.6B 到 235B 不等，阵容堪称豪华。图片其中，旗舰模型 Qwen3-235B-A22B 强势登顶，成为新一代开源之王！

编辑 | 伊风

出品 | 51CTO技术栈（微信号：blog51cto）

源神 Qwen3 赶在五一假期前重磅上线！

这次 Qwen3 直接放出了一整个“全家桶” ——总共 8 个模型，包括 2 个 MoE（稀疏专家）模型和 6 个稠密模型，规模从 0.6B 到 235B 不等，阵容堪称豪华。

图片

其中，旗舰模型 Qwen3-235B-A22B 强势登顶，成为新一代开源之王！在编码、数学、通用能力等多个基准评测中，表现可与 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等顶尖模型媲美。

图片

不仅大模型强，小型号也一样能打。小型 MoE 模型 Qwen3-30B-A3B，虽然激活参数量仅有 QwQ-32B 的十分之一，却实现了全面反超；而轻量级 Qwen3-4B，也几乎达到了 Qwen2.5-72B-Instruct 的水平。

图片

Qwen3当然也是惯例的上线即开源，并且其网页端已经可以体验该系列中最强大的几个模型！

Hugging Face:

https://huggingface.co/collections/Qwen/qwen3-67dd247413f0e2e4f653967f

Qwen Chat Web：

https://chat.qwen.ai/

图片

点进 Hugging Face 的 Qwen3 页面你会发现，模型列表比想象中还要长得多！这次源神不仅开源了完整模型，还贴心放出了部分对应的预训练版本！

比如 Qwen3-30B-A3B，它的预训练版 Qwen3-30B-A3B-Base 也一并上线了，现在已经可以在 Hugging Face、ModelScope、Kaggle 等平台上使用。

图片

Qwen3 blog中还贴心给到了部署建议，对于部署，建议使用SGLang和vLLM这样的框架。对于本地使用，强烈建议使用Ollama、LMStudio、MLX、llama.cpp和KTransformers等工具。

昨晚，国内外一大批关注开源的开发者们，熬夜苦等到凌晨，只为了这句话——终于等到了！

图片

Qwen3特性亮点：混合推理模型、双模式按需切换、MCP支持全面升级！

以下是官方总结的Qwen3的最强亮点。

1.混合思维模式

Qwen3 系列模型引入了混合式问题解决方法，支持两种推理模式：

思考模式：模型会一步步推理后再给出最终答案，适合需要深入思考的复杂问题。
非思考模式：模型快速、几乎即时地响应，适合对速度要求更高、无需复杂推理的简单问题。

这种灵活的设计，让用户可以根据任务需求，自由控制模型的“思考量”。比如，遇到难题时启用更充分的推理流程，而在处理简单问题时则可以直接快速作答。

当然，这样就实现了更好更便宜——双模式集成显著提升了模型在推理预算管理上的稳定性与效率。用户可以根据实际需求，轻松调整推理预算，在成本和推理质量之间拿捏得更精准。

图片

2.多语言支持

Qwen3 一口气支持了119种语言和方言，这一规模，足以让全球用户在刚上线的 Qwen APP 中畅通无阻地体验新一代大模型。真正实现了“让世界各地的人都能用上”的愿景！

原blog中列出了全语言的清单，其中不乏闻所未闻的冷门印欧系语言，如迈蒂利语、博杰普尔语、信德语等；在汉藏语系中则支持中文（简体中文、繁体中文、粤语）和缅甸语。

3.智能体能力提升

Qwen3 模型的编码能力和智能体（Agentic）能力进行了优化，并进一步增强了对 MCP（多智能体协作协议）的支持。

在给出的视频demo里，提问者给模型一个Qwen的开源主页，要求提取页面的 Markdown 内容，并绘制一张柱状图展示每个项目的 star 数量。模型出色地完成了思考，并最终通过MCP协议主动把柱状图保存到了本地文件中。

图片

刚刚，Qwen3强势登顶，成开源新王！国内首个混合推理模型，235B击败R1、o1!源神火力全开：全系列8个模型一口气开源！

Qwen3是如何练成的：三阶段预训练和四阶段后训揭秘

在预训练方面，Qwen3 的数据集相比 Qwen2.5 有了大幅扩展。Qwen2.5 的预训练量为 18 万亿 tokens，而 Qwen3 直接翻倍，使用了约 36 万亿 tokens，覆盖了 119 种语言和方言。

为了构建这一超大规模数据集，团队人员不仅收集了网页数据，还纳入了大量类似 PDF 的文档数据。

在处理文档数据时，他们使用 Qwen2.5-VL 进行文本抽取，再用 Qwen2.5 提升抽取内容的质量。为了增加数学与代码数据的比例，还利用 Qwen2.5-Math 和 Qwen2.5-Coder 生成了大量合成数据，涵盖教科书内容、问答对和代码片段。

Qwen3 的预训练过程分为三个阶段：

第一阶段（S1）：在超过 30 万亿 tokens 上进行预训练，采用 4K tokens 的上下文长度，为模型打下了基本的语言能力和通识知识基础。
第二阶段（S2）：提升数据集的知识密集度，增加了更多 STEM、编码与推理相关的数据，新增预训练了 5 万亿 tokens。
第三阶段：引入高质量的长上下文数据，将模型的上下文长度扩展到 32K tokens，确保能够有效处理更长的输入。

图片

得益于模型架构的优化、训练数据量的提升以及训练方法的改进，Qwen3 的稠密基础模型在整体性能上达到了参数量更大的 Qwen2.5 基础模型的水平。例如，Qwen3-1.7B/4B/8B/14B/32B-Base 分别对标 Qwen2.5-3B/7B/14B/32B/72B-Base。

特别是在 STEM、编码和推理领域，Qwen3 的稠密模型甚至可以超越更大规模的 Qwen2.5 模型。

至于 Qwen3 的 MoE 基础模型，它们在只使用约 10% 激活参数量的情况下，实现了与 Qwen2.5 稠密基础模型相当的性能，大幅降低了训练和推理成本。

在后训练方面，为了打造兼具逐步推理能力和快速响应能力的混合模型，Qwen3 采用了四阶段训练流程，包括：

长链式思考（CoT）冷启动
基于推理的强化学习（RL）
思考模式与非思考模式融合
通用领域强化学习

图片

在第一阶段，使用覆盖数学、编码、逻辑推理和 STEM 问题等多领域、多任务的长链式推理数据，对模型进行微调，奠定了基础推理能力。

第二阶段，放大了推理阶段的计算资源投入，结合基于规则的奖励信号，提升了模型的探索与利用能力。

第三阶段，将非思考模式融入到已有思考模式中，使用长链推理数据与常规指令微调数据的混合数据进行微调，这部分数据是由第二阶段强化后的思考模型生成的，确保了推理与快答能力的自然融合。

最后，在第四阶段，针对 20 多个通用领域任务进一步进行强化学习，包括指令遵循、格式遵循、智能体能力等，全面提升模型的通用能力并修正不良行为。

写在最后：从“训练模型”的时代，加速过渡到“训练智能体”的新时代

在整个blog的最后，Qwen表示还将持续进化，向着“扩大数据规模、增加模型参数量、延长上下文长度、拓展多模态能力”的方向进发，同时通过环境反馈推动强化学习，支持更长链条的推理能力。

从模型到智能体的跨越，正在加速到来。未来，基础模型的每一次进化，都不仅是参数的跃迁，更是智能边界的扩张。新的征程已经启航，让我们一起见证！

Anthropic 推出新一代混合推理模型 Claude 3.7 Sonnet：该公司“最智能”AI 模型

Anthropic发布Claude 3.7 Sonnet，这是其最智能的AI模型，结合了推理模式和传统模式，能处理更复杂的问题。新模型在数学和编码等领域表现优异，且运行成本与前代相同。此外，Anthropic还推出了Claude Code的有限研究预览版，提升编程效率。#AI技术# #人工智能#

2/25/2025 6:51:59 AM

远洋

性能与效率的双赢:Qwen3横空出世，MoE架构大幅降低部署成本

阿里云旗下通义千问（Qwen）团队正式发布Qwen3系列模型，共推出8款不同规格的模型，覆盖从移动设备到大型服务器的全部应用场景。这是国内首个全面超越DeepSeek R1的开源模型，也是首个配备混合思维模式的国产模型。模型阵容丰富，满足各类部署需求Qwen3系列包含6款Dense模型和2款MoE模型:Dense模型:0.6B、1.7B、4B、8B、14B、32BMoE模型:Qwen3-235B-A22B （总参数235B，激活参数22B）Qwen3-30B-A3B （总参数30B，激活参数3B）所有模型均支持128K上下文窗口，并配备了可手动控制的"thinking"开关，实现混合思维模式。

4/29/2025 4:00:41 PM

AI在线

深夜突袭，阿里Qwen3登顶全球开源王座！暴击DeepSeek-R1，2小时狂揽17k星

就在今天凌晨，备受全球期待的阿里新一代通义千问模型Qwen3开源！一经问世，它立刻登顶全球最强开源模型王座。它的参数量仅为DeepSeek-R1的1/3，但成本大幅下降，性能全面超越R1、OpenAI-o1等全球顶尖模型。

4/29/2025 8:14:14 AM

新智元

资讯热榜

Mac也能跑Qwen3，一文看懂本地部署qwen 3配置要求 Ollama 支持全线的 Qwen 3 模型即梦3.0海外版发布，电影级视觉与精准英文排版引领AI创作新高度纳米AI发布MCP万能工具箱，简化AI工具集成与调用 Qwen3正式发布，优化编码与代理能力，强化MCP支持引领AI新潮流 AI视频资讯早读！7个产品更新+8个案例精选小米开源“Xiaomi MiMo”大模型：为推理而生，以 7B 参数超越 OpenAI o1-mini DeepWiki：AI驱动的GitHub代码库百科全书正式亮相

标签云

人工智能 OpenAI AIGC AI ChatGPT AI绘画 DeepSeek 数据模型机器人谷歌大模型 Midjourney 智能用户开源学习 GPT 微软 Meta 图像 AI创作技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质芯片代码生成式英伟达腾讯神经网络研究计算 Anthropic 3D Sora AI for Science AI设计机器学习开发者 GPU AI视频华为场景人形机器人预测百度苹果伟达 Transformer 深度学习 xAI 模态字节跳动 Claude 大语言模型搜索驾驶具身智能神器推荐文本 Copilot LLaMA 算力安全视觉视频生成训练干货合集应用大型语言模型科技亚马逊智能体 DeepMind 特斯拉

顶部

刚刚，Qwen3强势登顶，成开源新王！国内首个混合推理模型，235B击败R1、o1!源神火力全开：全系列8个模型一口气开源！

Qwen3特性亮点：混合推理模型、双模式按需切换、MCP支持全面升级！

1.混合思维模式

2.多语言支持

3.智能体能力提升

相关资讯

Anthropic 推出新一代混合推理模型 Claude 3.7 Sonnet：该公司“最智能”AI 模型

性能与效率的双赢:Qwen3横空出世，MoE架构大幅降低部署成本

深夜突袭，阿里Qwen3登顶全球开源王座！暴击DeepSeek-R1，2小时狂揽17k星