AI偏科的毛病「治」得咋样了?我们实测了6款大模型

AI好好用报道编辑:杨文省流版结论:有进步,但联系实际的题目还是歇菜。 生活会欺骗你,但数学不会,数学不会就是不会。 这个段子,在大模型身上同样成立。

AI好好用报道

编辑:杨文

省流版结论:有进步,但联系实际的题目还是歇菜。

生活会欺骗你,但数学不会,数学不会就是不会。

这个段子,在大模型身上同样成立。

9.9 和 9.11 哪个大、strawberry 有几个 r,如此简单的题目曾难倒一群大模型。

本着哪里薄弱补哪里的原则,大模型们近来「卷」起了数学推理。

先是 Kimi 网页端上线了首个数学模型 k0-math ,直接对标 OpenAI 的 o1-mini 和 o1-preview。

AI偏科的毛病「治」得咋样了?我们实测了6款大模型

据 Kimi 官方介绍,在中考、高考、考研以及包含入门竞赛题的 MATH 等 4 个数学基准测试中,k0-math 初代模型成绩超过 o1-mini 和 o1-preview 模型。

没隔几天,昆仑万维和阿里均推出了自家 o1 模型。

其中,昆仑万维表示其 Skywork o1 系列模型,在各项数学指标上实现显著提升。

而阿里声称最新的 QwQ-32B-preview 在 GPQA 上击败了 o1-mini。

半个月前,夸克发布 AI 搜题功能,其背后的「灵知」学习大模型,号称在考研数学题上的正确率和得分率可以比肩 o1 模型。

还有一直跟数学「死磕」的学而思,推出的九章大模型一度成为家长辅导孩子的「利器」。

接下来,我们就测评一下这些大模型的真实数学水平。

对标选手 ——

OpenAI 的 o1-mini、o1-preview

踢馆选手 ——

月之暗面 Kimi 的 k0-math:

在 Kimi Web 版的侧边栏,找到 👓 图标,点击进入。

学而思九章大模型:

https://playground.xes1v1.cn/MathGPT

阿里 QwQ-32B-preview:

https://huggingface.co/spaces/Qwen/QwQ-32B-preview

夸克灵知大模型:

可在夸克 App 或夸克 PC 端,点击「AI 搜题」调用。

-1-

小学数学题

别看不起小学数学题。

小学数学多神题,大模型也最容易栽跟头。

小明 120 元买了一只鸡,130 元卖出去,150 元再买回来,160 元又卖出去,问:一共赚了多少钱?
答案:20 元。

o1-mini:

AI偏科的毛病「治」得咋样了?我们实测了6款大模型

o1-preview:

AI偏科的毛病「治」得咋样了?我们实测了6款大模型

Kimi 的 k0-math:

AI偏科的毛病「治」得咋样了?我们实测了6款大模型

学而思九章大模型:

AI偏科的毛病「治」得咋样了?我们实测了6款大模型

夸克灵知大模型:

AI偏科的毛病「治」得咋样了?我们实测了6款大模型

阿里 QwQ-32B-preview:

AI偏科的毛病「治」得咋样了?我们实测了6款大模型

总结:

AI偏科的毛病「治」得咋样了?我们实测了6款大模型

一个西瓜进价 20 元,卖了 40 元,老板收了 100 元假币,问老板亏了多少钱?
答案:亏 80 元。

o1-mini:

AI偏科的毛病「治」得咋样了?我们实测了6款大模型

o1-preview:

AI偏科的毛病「治」得咋样了?我们实测了6款大模型

Kimi 的 k0-math:

AI偏科的毛病「治」得咋样了?我们实测了6款大模型

学而思九章大模型:

AI偏科的毛病「治」得咋样了?我们实测了6款大模型

夸克灵知大模型:

AI偏科的毛病「治」得咋样了?我们实测了6款大模型

阿里 QwQ-32B-preview:

AI偏科的毛病「治」得咋样了?我们实测了6款大模型

总结:

AI偏科的毛病「治」得咋样了?我们实测了6款大模型

一段长 100 米的铁路,用 10 米长的铁轨铺,要多少根铁轨?
答案:20 根。一条火车轨道的铁轨有两条,所以要用到 20 根。这道题不仅考验数学能力,同时还要能结合实际生活。

o1-mini:

AI偏科的毛病「治」得咋样了?我们实测了6款大模型

o1-preview:

AI偏科的毛病「治」得咋样了?我们实测了6款大模型

Kimi 的 k0-math:

AI偏科的毛病「治」得咋样了?我们实测了6款大模型

学而思九章大模型:

AI偏科的毛病「治」得咋样了?我们实测了6款大模型

夸克灵知大模型:

AI偏科的毛病「治」得咋样了?我们实测了6款大模型

阿里 QwQ-32B-preview:

AI偏科的毛病「治」得咋样了?我们实测了6款大模型

总结:

AI偏科的毛病「治」得咋样了?我们实测了6款大模型

-2-

初中数学题

某工程队承接一隧道工程,在挖掘一条 1000 米长的隧道时,为了尽快完成,实际施工时每天挖掘的长度是原计划的 2 倍,结果提前了 50 天完成了其中 800 米的隧道挖掘任务。求实际每天挖掘多少米?
答案:实际每天挖掘 16 米。

o1-mini:

AI偏科的毛病「治」得咋样了?我们实测了6款大模型

o1-preview:

AI偏科的毛病「治」得咋样了?我们实测了6款大模型

Kimi 的 k0-math:

AI偏科的毛病「治」得咋样了?我们实测了6款大模型

学而思九章大模型:

AI偏科的毛病「治」得咋样了?我们实测了6款大模型

夸克灵知大模型:

AI偏科的毛病「治」得咋样了?我们实测了6款大模型

阿里 QwQ-32B-preview:

AI偏科的毛病「治」得咋样了?我们实测了6款大模型

总结:

AI偏科的毛病「治」得咋样了?我们实测了6款大模型

-3-

高中数学题

AI偏科的毛病「治」得咋样了?我们实测了6款大模型

答案选:B

由于 Kimi、o1-mini、o1-preview、QwQ-32B-preview 无法上传图片,而题目中数学符号又难以输入,所以我们截图后,用 Kimi 常规版将其转为 LaTeX 格式:

 \item 已知函数为 $f (x) = \left\{
        \begin {array}{ll}
            -x^2 - 2ax - a, & x < 0 \\
            e^x + \ln (x + 1), & x \geq 0
        \end {array}
    \right.$,在 $\mathbb {R}$ 上单调递增,则 $a$ 取值的范围是 ()
    \begin {enumerate}
        \item A. $(-\infty, 0]$
        \item B. $[-1, 0]$
        \item C. $[-1, 1]$
        \item D. $[0, +\infty)$
    \end {enumerate}

o1-mini:

AI偏科的毛病「治」得咋样了?我们实测了6款大模型

o1-preview:

AI偏科的毛病「治」得咋样了?我们实测了6款大模型

Kimi 的 k0-math:

AI偏科的毛病「治」得咋样了?我们实测了6款大模型

学而思九章大模型:

AI偏科的毛病「治」得咋样了?我们实测了6款大模型

夸克灵知大模型:

由于该题目已在夸克的题库中,因此无法调用灵知大模型,以下为夸克常规搜题的结果。

AI偏科的毛病「治」得咋样了?我们实测了6款大模型

阿里 QwQ-32B-preview:

AI偏科的毛病「治」得咋样了?我们实测了6款大模型

总结:

AI偏科的毛病「治」得咋样了?我们实测了6款大模型

从最终测试结果来看,经过几个月来的进化,国产大模型在数学方面确实有了很大的进步。

在常规数学题上,o1-mini 和 o1-preview 频频翻车,反倒是国产大模型发挥稳定。

不过,对于联系生活实际的题目,大模型们仍搞不定。比如计算铁轨那道题,国内外大模型们「全军覆没」。

此外,在做数学题时,这些大模型们的「脑回路」并不太一样。

相较而言,Kimi 的 k0-math 和阿里 QwQ-32B-preview 做题时更加谨慎,它们得出答案后,会不断验证,并思考其他可能漏掉的情况。

学而思九章大模型则是先分析题目,然后解题并进行知识归纳,同时还提供了答案置信度。

夸克AI搜题的一大特色在于同一道题目提供多种解题思路,并可通过对话进一步请教相关知识点。

以后我们会带来更多AI大模型评测,也欢迎大家进群交流。

给TA打赏
共{{data.count}}人
人已打赏
应用

统信软件 2024 中国操作系统大会定档 12 月 10 日,发布最新 AIOS 产品

2024-12-2 18:41:08

应用

陈天桥披露盛大公司 AI 战略:布局智能商业决策、突破算法茧房的内容分发等

2024-12-2 19:44:14

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索