阿里开源推理模型QwQ-32B，性能比肩R1满血版！

作者：数字生命卡兹克

2025-03-10 12:38

Manus 发布之后，随之而来赶到战场的，是阿里。关于 Manus 的深度测评：. 一手体验首款通用Agent产品Manus昨天夜里，深夜惊雷。

Manus 发布之后，随之而来赶到战场的，是阿里。

关于 Manus 的深度测评：

唯有惊叹！一手体验首款通用Agent产品Manus

昨天夜里，深夜惊雷。

阅读文章 >

阿里开源推理模型QwQ-32B，性能比肩R1满血版！

凌晨 3 点，阿里开源了他们全新的推理模型。

QwQ-32B。

本来还有点意识模糊，当看到他们发出来的性能比对图，我人傻了。

阿里开源推理模型QwQ-32B，性能比肩R1满血版！

不是，我没看懂，这特么是个什么怪物。

在几乎所有数据集里，QwQ-32B 都已经能跟满血版 DeepSeek R1（671B）表现相当了。尤其是作为 QwQ-32B 的主攻方向的数学和代码。

而且，QwQ-32B 在基准测试上的性能跑分，几乎拉开 o1-mini 一个身位。

我人已傻。

今天这夜，对我的冲击有一点大。

GPT4.5 刚刚证明传统的那套快撞墙了，转头阿里就来给你掏个大的，说，你看，强化学习还是能卷的，这条路，远远还没到头。

这么令人诧异的性能表现，其实也跟这两天在 arxiv 出来的一篇爆火论文互相印证了。

一堆斯坦福教授集中讨论，为什么 Qwen-2.5-3B 一开始就能自己检查自己的答案，Llama-3.2-3B 却不行。

最后的原因还是落在了 Qwen 团队的强化学习上。因为，这能让模型自己学会一些关键的“思考习惯”。

阿里开源推理模型QwQ-32B，性能比肩R1满血版！

没啥可说的，阿里 NB。QwenNB。

QwQ-32B 开源链接在此：

魔搭开源链接： https://modelscope.cn/models/Qwen/QwQ-32B

huggingface 开源链接： https://huggingface.co/Qwen/QwQ-32B

当然如果想直接上手体验，官方也给出了在线体验的地址：https://chat.qwen.ai/?models=Qwen2.5-Plus

左上角模型选择 Qwen2.5-Plus，然后开启 Thinking（QwQ），就能用 QwQ-32B 了。

阿里开源推理模型QwQ-32B，性能比肩R1满血版！

我这边也第一时间在 AutoDL 租了一台 A800-80G 的显卡，然后把模型下载了下来，并部署测试了一下这个怪物。综合体验下来，本地部署版和网页版其实是一样的。

阿里开源推理模型QwQ-32B，性能比肩R1满血版！

性能曲线是这样的。

阿里开源推理模型QwQ-32B，性能比肩R1满血版！

我也做了一些测试。

首先就是，我觉得赛博半仙易主了。这回的 QwQ-32B 真的能当八字算命大师了。

懂得都懂，AI 自媒体人的命也是命，它掐指一算，就知道我经常熬大夜，狂肝文章。下半年家里那些鸡毛蒜皮的事就别提了，为了搭我的摄影棚，把景深弄得更到位，我是真得搬家啊。。。

阿里开源推理模型QwQ-32B，性能比肩R1满血版！

当然，AI 算命只能算是个开胃菜，接下来还是得认真测下 QwQ-32B 的数学能力。

然后就是拿我的著名的国庆调休题来难为下这类推理模型了：

这是中国 2024 年 9 月 9 日（星期一）开始到 10 月 13 日的放假调休安排:上 6 休 3 上 3 休 2 上 5 休 1 上 2 休 7 再上 5 休 1。请你告诉我除了我本来该休的周末，我因为放假多休息了几天？

比如 Grok3 这种，开了推理还是直接炸了。

阿里开源推理模型QwQ-32B，性能比肩R1满血版！

答案明明是 4 天，你咋独自加了 3 天。。。

而看看 QwQ-32B，在一顿小推理之后。

阿里开源推理模型QwQ-32B，性能比肩R1满血版！

最后答案，完全正确。

阿里开源推理模型QwQ-32B，性能比肩R1满血版！

要知道，这可只是一个 32B 的小模型啊。。

然后我还试了一下代码能力。我就直接去 Leetcode 找了一道困难级别的算法题，解数独。

可能有人不知道 Leetcode 是啥，LeetCode 是一个全球知名的在线编程练习平台，这个平台有大量不同难度的算法题库，从简单到困难的各种编程题都有。

我直接把解数独的题目还有代码模板丢给 QwQ-32B，让它给出最优解的代码：

编写一个程序，通过填充空格来解决数独问题。

数独的解法需遵循如下规则：

数字 1-9 在每一行只能出现一次。

数字 1-9 在每一列只能出现一次。

数字 1-9 在每一个以粗实线分隔的 3x3 宫内只能出现一次。（请参考示例图）

数独部分空格内已填入了数字，空白格用 '.' 表示。

然后给定你一个类，给我一个比较好的方案：

class Solution(object):

def solveSudoku(self, board):

"""

:type board: List[List[str]]

:rtype: None Do not return anything, modify board in-place instead.

"""

经过几分钟的思考，这道题的完整最优解代码也是被 QwQ-32B 成功给出。

阿里开源推理模型QwQ-32B，性能比肩R1满血版！

我把这段代码粘贴到了 Leetcode 平台上，直接提交，没想到这段代码竟然完美的通过了全部测试用例吗，而且执行用时才 127ms，击败了 93%的在这个算法题库做尝试的人。

说实话，这个结果让我挺惊讶的，毕竟 127ms 的用时，看平均的用时基本都在 1691ms 左右。

阿里开源推理模型QwQ-32B，性能比肩R1满血版！

很强，但是我觉得最强的，还是它未来的生态。

32B 和 671B，对于本地算力的要求，或者是云服务的成本来说，差别实在是太大太大了。

671B，在 FP16 精度下需要 1400G 的显存，这个门槛有多高大家懂得都懂。

而现在，32B 的 QwQ，4 张 4090 就能跑，这是将近 15 倍的差距。

而且，智能水平差不多。

这也意味着很多普通企业还有普通开发者，可以直接拿到一个足以对标 DeepSeek R1 的逻辑推理、数学推理、代码思考能力的大模型，而且还开源，能在自家环境中任意调试、微调、二次开发。

更何况，阿里云上的资源、ModelScope、Hugging Face 镜像都能对接，瞬间就把部署壁垒降到几乎为零。

对于那些创新型创业者、小型团队，或者想要做专业 AI 应用的公司而言，我说实话，这就是天降神兵。

对于大多数的企业垂直场景，一个优秀的 32B 的模型真的已经足以应付很很多，没必要非得上 600 多亿参数、又烧又贵的巨无霸。

这波 QwQ-32B 开源的意义，还是非常强的。

它用实力证明 RLHF 路线还能玩出花，打破了一些人对 GPT4.5 撞墙后的过度悲观。

用中等规模却拿到高级性能，给开源界注入了强大信心，你也不必搞那种天价设备和超大规模，也有机会跟国际巨头同场竞技。

真的，昨夜爆火的 Manus，在技术架构上，也是 Claude+很多微调的 Qwen 小模型。

那这次 QwQ-32B，又是一次智能的提升。

每个大厂、每个团队都在全力冲刺，新的风暴还会一个接一个出现。

睡前一抬头，日历翻到新的数字。

又是个不眠之夜。

阿里 NB，QwenNB。

我们中国的团队。

就是 NB。

愿我们都能见证更多奇迹。

晚安，或者早安吧。

欢迎关注作者的微信公众号：数字生命卡兹克

阿里开源推理模型QwQ-32B，性能比肩R1满血版！

阿里通义千问推出推理模型QwQ-Max预览版可在qwen.ai域名体验

2月25日，阿里巴巴宣布推出基于Qwen2.5-Max的推理模型QwQ-Max-Preview，并计划全面开源其最新推理模型QwQ-Max和Qwen2.5-Max。此次发布的QwQ-Max-Preview是一个预览版本，阿里巴巴表示，正式版本将很快推出，并基于Apache2.0许可证全面开源。与以往不同的是，此次开源不仅包括模型本身，还涵盖了更小的版本，如QwQ-32B，这些版本可以部署在本地设备上，进一步推动AI技术的普及和应用。

2/25/2025 8:35:00 AM

AI在线

全国高校首个：东南大学上线阿里 QwQ-32B，支持消费级显卡本地部署

近日东南大学基于昇腾国产算力平台正式接入阿里最新开源模型 QwQ-32B，成为全国首个上线 QwQ-32B 服务的高校。东南大学称，QwQ-32B 虽仅有 32B 参数，但通过大规模强化学习训练，在数学推理（AIME24 评测）、代码生成（LiveCodeBench）、工具调用（BFCL 测试）等任务中表现媲美 671B 参数的 DeepSeek-R1，甚至部分指标实现超越。

3/10/2025 3:47:55 PM

远洋

推理水平对标OpenAI o1！阿里云通义开源最新推理模型QwQ

11月28日，阿里云通义团队发布全新AI推理模型QwQ-32B-Preview，并同步开源。评测数据显示，预览版本的QwQ，已展现出研究生水平的科学推理能力，在数学和编程方面表现尤为出色，整体推理水平比肩OpenAI o1。 QwQ（Qwen with Questions）是通义千问Qwen大模型最新推出的实验性研究模型，也是阿里云首个开源的AI推理模型。

11/28/2024 5:31:00 PM

新闻助手

资讯热榜

企业级模型推理部署工具vllm使用指南 - 部署最新deepseek-v3-0324模型上海AI实验室开源InternVL3系列多模态大型语言模型 50组多风格提示词，全面测评Midjourney V7生图效果！全日程揭晓！ICLR 2025论文分享会我们北京见斯坦福2025 AI指数出炉！中美AI对决差距仅剩0.3%，DeepSeek领衔 5分钟直出46页论文！谷歌Deep Research完爆OpenAI，最强Gemini 2.5加持击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！ ChatGPT重大更新，能翻出所有历史对话，网友被AI聊破防了

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D AI设计 Anthropic 机器学习 GPU 开发者场景华为预测伟达 Transformer 百度深度学习苹果模态 AI视频驾驶文本 xAI 搜索人形机器人大语言模型 Copilot 神器推荐 LLaMA 字节跳动具身智能 Claude 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练

顶部

阿里开源推理模型QwQ-32B，性能比肩R1满血版！

唯有惊叹！一手体验首款通用Agent产品Manus

相关资讯

阿里通义千问推出推理模型QwQ-Max预览版 可在qwen.ai域名体验

全国高校首个：东南大学上线阿里 QwQ-32B，支持消费级显卡本地部署

推理水平对标OpenAI o1！阿里云通义开源最新推理模型QwQ

阿里通义千问推出推理模型QwQ-Max预览版可在qwen.ai域名体验