陶哲轩：通义千问QwQ奥数真厉害，开源大模型顶流

QwQ 具有神奇的推理能力。一个刚发布两天的开源模型，正在 AI 数学奥林匹克竞赛 AIMO 上创造新纪录。本周五，知名数学家、加州大学洛杉矶分校教授、菲尔茨奖得主陶哲轩（Terence Tao）介绍了第二届 AIMO 竞赛的最新进展。

QwQ 具有神奇的推理能力。

一个刚发布两天的开源模型，正在 AI 数学奥林匹克竞赛 AIMO 上创造新纪录。

本周五，知名数学家、加州大学洛杉矶分校教授、菲尔茨奖得主陶哲轩（Terence Tao）介绍了第二届 AIMO 竞赛的最新进展。比赛在数据竞赛平台 Kaggle 上已经持续了一个月，现在有队伍快要触发「Early Sharing Prize」的门槛了。

Early Sharing Prize 是为了鼓励 AIMO 参赛者在比赛早期分享高分模型经验设立的奖项，需要选手在竞赛中第一个获得 20/50 分，且公开自己的 notebook，奖金为额外的两万美元。

据陶哲轩介绍，就在不到一天前有参赛团队使用 QwQ-32B 的特定实例已经拿到了 18/20 的成绩，该模型似乎比之前的开源模型在解决数学竞赛问题方面表现得更好。

今年 7 月，陶哲轩在国际数学奥赛 IMO 上给第一届 AIMO 的获奖团队进行了颁奖，分享了自己对 AI 在数学研究中应用范式的思考，也打响了 AIMO 竞赛的名声。

AI 数学奥林匹克竞赛 AIMO 的初衷是让参与者使用 AI 模型解决国际数学难题，这将有助于推动人工智能模型的数学推理能力，并促进前沿知识的发展。

由于大模型技术的快速进步，人们对 AI 解决数学问题的能力寄予厚望，第一届 AIMO 的获奖队伍分获了 104.8 万美元的奖金，而现在第二届，奖池已经上升到了 211.7 万美元。

AIMO 竞赛要求参赛团队公开发布其代码、方法、数据和模型参数。刚刚结束的第一届比赛里大家使用的模型各不相同，包括 Mixtral 8x7b、Gemma、Llama 3 等等，有的来自大厂，有的来自 AI 创业公司，呈现百花齐放的态势。

而到了这一届，现在似乎已经变成了 Qwen 系列在刷屏，其他模型偶尔出现：

刚刚发布的 QwQ，还在把开源大模型推向新的高度。

QwQ 的能力也并不仅限于奥数这一个方面，最近社交网络上也有不少人在夸它的推理能力。

HuggingFace 的产品设计人员也表示：测试了一下 QwQ，结果令人惊叹：

有人说，QwQ 就是一个在冉冉升起的新神，虽然有时仍会出错，但令人着迷的就是它的推理路径，就像给 o1 再来一个巨大的加号。

更有趣的是，有人发现这个模型用于思考的原生语言似乎是中文：

难不成这就是 QwQ 逻辑能力强大的原因之一？无论如何，开源大模型领域的风向，似乎已经变了。

11 月 28 日，阿里云通义团队发布了全新 AI 推理模型 QwQ-32B-Preview，并同步开源。评测数据显示，预览版本的 QwQ 已展现出研究生水平的科学推理能力，在数学和编程方面表现尤为出色，整体推理水平比肩 OpenAI 的 o1。

HuggingFace 开源地址：https://huggingface.co/Qwen/QwQ-32B-Preview
HuggingFace Space 体验：https://huggingface.co/spaces/Qwen/QwQ-32B-preview

据介绍，QwQ（Qwen with Questions）是通义千问 Qwen 大模型最新推出的实验性研究模型，也是阿里云首个开源的 AI 推理模型。阿里云通义千问团队研究发现，当模型有足够的时间思考、质疑和反思时，其对数学和编程的理解就会深化。基于此，QwQ 取得了解决复杂问题的突破性进展。

在考察科学问题解决能力的 GPQA 评测集上，QwQ 获得了 65.2% 的准确率，具备研究生水平的科学推理能力；在涵盖综合数学主题的 AIME 评测中，QwQ 以 50% 的胜率证明其拥有解决数学问题的丰富技能；在全面考察数学解题能力的 MATH-500 评测中，QwQ 斩获 90.6% 的高分，一举超越了 o1-preview 和 o1-mini；在评估高难度代码生成的 LiveCodeBench 评测中，QwQ 答对一半的题，在编程竞赛题场景中也有出色表现。

另外当面对复杂问题时，QwQ 展现了深度自省的能力，会质疑自身假设，进行深思熟虑的自我对话，并仔细审视其推理过程的每一步。

比如，在经典智力题「猜牌问题」中，QwQ 会通过梳理各方对话并推演现实情况，它像个擅长思考的人一样，能揣摩「这句话有点 tricky」，反思「等一下，也许我需要更仔细地思考」，最终分析得出正确答案，这似乎是以前没有 AI 能做到的事情。

面对目前高涨的热度，通义团队表示，尽管 QwQ 展现了强大的分析能力，但该模型仍是个供研究的实验型模型，存在不同语言的混合使用、偶有不恰当偏见、对专业领域问题不了解等局限。随着研究深入模型迭代，这些问题将逐步得到解决。

参考内容：

https://mathstodon.xyz/@tao/113568284621180843

https://www.kaggle.com/competitions/ai-mathematical-olympiad-progress-prize-2/leaderboard