重磅！阿里深夜推出全新推理模型，仅1/20参数媲美DeepSeek R1

2025-03-06 09:55

就在刚刚，阿里Qwen 团队正式发布了他们最新的研究成果 —— QwQ-32B 大语言模型！这款模型不仅名字萌萌哒 (QwQ)，实力更是不容小觑！ 😎相信关注大模型领域的朋友们都知道，模型参数量的大小往往与性能成正比。

就在刚刚，阿里Qwen 团队正式发布了他们最新的研究成果 —— QwQ-32B 大语言模型！这款模型不仅名字萌萌哒 (QwQ)，实力更是不容小觑！😎

相信关注大模型领域的朋友们都知道，模型参数量的大小往往与性能成正比。但这次，Qwen 团队却用 320亿参数 的 QwQ-32B，硬刚拥有 6710亿参数 的 DeepSeek-R1，并且在多项评测中取得了媲美甚至超越后者的惊人成绩！背后究竟是什么黑科技？答案就是 —— 强化学习 (Reinforcement Learning, RL)！

划重点：强化学习，大模型的新引擎！💪

Qwen 团队在博文中提到，他们深入探索了强化学习 (RL)在提升大语言模型智能方面的巨大潜力。QwQ-32B 的成功发布，有力地证明了 RL 是提升模型性能的强大引擎！

多项基准评测硬刚 DeepSeek-R1

QwQ-32B 的实力究竟有多强？官方给出基准评测结果，涵盖了数学推理、代码能力和通用问题解决等多个方面

从数据中我们可以清晰地看到，在 AIME24 和 IFEval 等关键基准测试中，QwQ-32B 的表现相当或者略微超过了参数量巨大的 DeepSeek-R1！而在其他基准测试中，也基本与 DeepSeek-R1 持平，远超其他对比模型。

这意味着 QwQ-32B 在 仅有 DeepSeek-R1 约 1/20 参数量 的情况下，用强化学习，实现了性能上的惊人跨越！

技术揭秘：冷启动 + 结果导向的强化学习策略

Qwen 团队在博文中也简单介绍了 QwQ-32B 背后的强化学习方法。他们采用了 冷启动 (cold-start checkpoint) 的方式，并实施了 结果导向 (outcome-based rewards) 的强化学习策略。

• 冷启动：从一个预训练模型的检查点开始训练。
• 结果导向：在初始阶段，主要针对数学和代码任务进行 RL 训练。

• 数学问题：使用 准确率验证器 (accuracy verifier) 来确保答案的正确性。
• 代码生成：使用 代码执行服务器 (code execution server) 来评估生成的代码是否能够成功运行。

• 通用奖励模型和规则验证器：后续阶段，会逐步引入更通用的奖励模型和规则验证器，提升模型在其他通用能力方面的表现。

这种策略的核心在于 不依赖传统的奖励模型，而是直接根据任务结果（答案是否正确，代码是否运行成功）来指导模型的学习，更加高效和直接。

开源开放

QwQ-32B 模型是 开源开放 (open-weight) 的！你可以在 Hugging Face 和 ModelScope 上找到它，并基于 Apache 2.0 协议 自由使用和研究！同时，你也可以通过 Qwen Chat 平台直接体验 QwQ-32B 的对话能力

HF:https://huggingface.co/Qwen/QwQ-32B

ModelScope:https://modelscope.cn/models/Qwen/QwQ-32B

Demo:https://huggingface.co/spaces/Qwen/QwQ-32B-Demo

Qwen Chat:https://chat.qwen.ai

写在最后

Qwen 团队表示，QwQ-32B 的发布只是他们在强化学习方向上的初步尝试。未来，他们将继续深入探索 RL 的潜力，并将其与更强大的基础模型相结合，利用更大的计算资源，致力于打造 下一代 Qwen 模型，并最终迈向 通用人工智能 (AGI) 目标！

同时，他们还将积极探索 Agent 与 RL 的结合，实现更长程的推理能力，解锁更高级别的智能

追平满血版o1的国产多模态模型终于来了！训练细节全部公开

春节前最后一周，能媲美 Open AI 满血版 o1（Full Version，而非 preview）的模型终于出现了！刚刚，月之暗面公布了他们的 Kimi k 系列模型最新版本 ——k1.5 多模态思考模型。新模型在数学、代码、多模态推理能力等方面全面对标 Open AI 满血版 o1，而且是 OpenAI 之外首个多模态 o1。

1/21/2025 8:00:00 AM

机器之心

Anthropic CEO惊人预警：27年AI超越人类！Claude今年更新全剧透

失踪人口终于回归了！在互联网消失一段时间后，Anthropic首席执行官Dario Amodei一上来就接受了WSJ、CNBC两家采访，连曝AI大瓜。他坚定地认为，「2027年之前，AI完全可以超越人类智能！

1/23/2025 9:00:00 AM

新智元

中国AI太强，Meta工程师吓疯？自曝疯狂熬夜复制DeepSeek，天价高管心虚了

今天，Meta员工在匿名社区TeamBlind上的一个帖子，在业内被传疯了。 DeepSeek，真实地给了美国人亿点点「震撼」。 DeepSeek R1是世界上首个与OpenAI o1比肩的AI模型，而且与o1不同， R1还是开源模型「Open Source Model」，比OpenAI还Open!更有人曝料，DeepSeek还只是个「副项目」，主业根本不是搞大模型！

1/24/2025 1:20:00 PM

新智元

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片本地部署DeepSeek+DiFy平台构建智能体应用 OPPO 小布助手网页版上线，接入满血版 DeepSeek kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果深度学习 AI视频模态人形机器人 xAI 驾驶字节跳动文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型

顶部