AI偏科的毛病「治」得咋样了？我们实测了6款大模型

AI好好用报道编辑：杨文省流版结论：有进步，但联系实际的题目还是歇菜。生活会欺骗你，但数学不会，数学不会就是不会。这个段子，在大模型身上同样成立。

AI好好用报道

编辑：杨文

省流版结论：有进步，但联系实际的题目还是歇菜。

生活会欺骗你，但数学不会，数学不会就是不会。

这个段子，在大模型身上同样成立。

9.9 和 9.11 哪个大、strawberry 有几个 r，如此简单的题目曾难倒一群大模型。

本着哪里薄弱补哪里的原则，大模型们近来「卷」起了数学推理。

先是 Kimi 网页端上线了首个数学模型 k0-math ，直接对标 OpenAI 的 o1-mini 和 o1-preview。

AI偏科的毛病「治」得咋样了？我们实测了6款大模型

据 Kimi 官方介绍，在中考、高考、考研以及包含入门竞赛题的 MATH 等 4 个数学基准测试中，k0-math 初代模型成绩超过 o1-mini 和 o1-preview 模型。

没隔几天，昆仑万维和阿里均推出了自家 o1 模型。

其中，昆仑万维表示其 Skywork o1 系列模型，在各项数学指标上实现显著提升。

而阿里声称最新的 QwQ-32B-preview 在 GPQA 上击败了 o1-mini。

半个月前，夸克发布 AI 搜题功能，其背后的「灵知」学习大模型，号称在考研数学题上的正确率和得分率可以比肩 o1 模型。

还有一直跟数学「死磕」的学而思，推出的九章大模型一度成为家长辅导孩子的「利器」。

接下来，我们就测评一下这些大模型的真实数学水平。

对标选手 ——

OpenAI 的 o1-mini、o1-preview

踢馆选手 ——

月之暗面 Kimi 的 k0-math：

在 Kimi Web 版的侧边栏，找到 👓 图标，点击进入。

学而思九章大模型：

https://playground.xes1v1.cn/MathGPT

阿里 QwQ-32B-preview：

https://huggingface.co/spaces/Qwen/QwQ-32B-preview

夸克灵知大模型：

可在夸克 App 或夸克 PC 端，点击「AI 搜题」调用。

-1-

小学数学题

别看不起小学数学题。

小学数学多神题，大模型也最容易栽跟头。

小明 120 元买了一只鸡，130 元卖出去，150 元再买回来，160 元又卖出去，问：一共赚了多少钱？
答案：20 元。

o1-mini：

AI偏科的毛病「治」得咋样了？我们实测了6款大模型

o1-preview：

AI偏科的毛病「治」得咋样了？我们实测了6款大模型

Kimi 的 k0-math：

AI偏科的毛病「治」得咋样了？我们实测了6款大模型

学而思九章大模型：

AI偏科的毛病「治」得咋样了？我们实测了6款大模型

夸克灵知大模型：

AI偏科的毛病「治」得咋样了？我们实测了6款大模型

阿里 QwQ-32B-preview：

AI偏科的毛病「治」得咋样了？我们实测了6款大模型

总结：

AI偏科的毛病「治」得咋样了？我们实测了6款大模型

一个西瓜进价 20 元，卖了 40 元，老板收了 100 元假币，问老板亏了多少钱？
答案：亏 80 元。

o1-mini：

o1-preview：

Kimi 的 k0-math：

学而思九章大模型：

夸克灵知大模型：

阿里 QwQ-32B-preview：

总结：

AI偏科的毛病「治」得咋样了？我们实测了6款大模型

一段长 100 米的铁路，用 10 米长的铁轨铺，要多少根铁轨？
答案：20 根。一条火车轨道的铁轨有两条，所以要用到 20 根。这道题不仅考验数学能力，同时还要能结合实际生活。

o1-mini：

AI偏科的毛病「治」得咋样了？我们实测了6款大模型

o1-preview：

AI偏科的毛病「治」得咋样了？我们实测了6款大模型

Kimi 的 k0-math：

AI偏科的毛病「治」得咋样了？我们实测了6款大模型

学而思九章大模型：

AI偏科的毛病「治」得咋样了？我们实测了6款大模型

夸克灵知大模型：

AI偏科的毛病「治」得咋样了？我们实测了6款大模型

阿里 QwQ-32B-preview：

AI偏科的毛病「治」得咋样了？我们实测了6款大模型

总结：

-2-

初中数学题

某工程队承接一隧道工程，在挖掘一条 1000 米长的隧道时，为了尽快完成，实际施工时每天挖掘的长度是原计划的 2 倍，结果提前了 50 天完成了其中 800 米的隧道挖掘任务。求实际每天挖掘多少米？
答案：实际每天挖掘 16 米。

o1-mini：

AI偏科的毛病「治」得咋样了？我们实测了6款大模型

o1-preview：

AI偏科的毛病「治」得咋样了？我们实测了6款大模型

Kimi 的 k0-math：

AI偏科的毛病「治」得咋样了？我们实测了6款大模型

学而思九章大模型：

AI偏科的毛病「治」得咋样了？我们实测了6款大模型

夸克灵知大模型：

AI偏科的毛病「治」得咋样了？我们实测了6款大模型

阿里 QwQ-32B-preview：

AI偏科的毛病「治」得咋样了？我们实测了6款大模型

总结：

AI偏科的毛病「治」得咋样了？我们实测了6款大模型

-3-

高中数学题

AI偏科的毛病「治」得咋样了？我们实测了6款大模型

答案选：B

由于 Kimi、o1-mini、o1-preview、QwQ-32B-preview 无法上传图片，而题目中数学符号又难以输入，所以我们截图后，用 Kimi 常规版将其转为 LaTeX 格式：

 \item 已知函数为 $f (x) = \left\{
        \begin {array}{ll}
            -x^2 - 2ax - a, & x < 0 \\
            e^x + \ln (x + 1), & x \geq 0
        \end {array}
    \right.$，在 $\mathbb {R}$ 上单调递增，则 $a$ 取值的范围是 ()
    \begin {enumerate}
        \item A. $(-\infty, 0]$
        \item B. $[-1, 0]$
        \item C. $[-1, 1]$
        \item D. $[0, +\infty)$
    \end {enumerate}

o1-mini：

AI偏科的毛病「治」得咋样了？我们实测了6款大模型