大模型的高考数学成绩单:及格已经非常好了

让考生头皮发麻的高考数学,可难倒了顶尖 AI 大模型。一年一度的高考即将落幕,衷心希望各位考生都超常发挥,考出满意的好成绩!!和往年一样,除了让 AI 大模型写写高考作文,我们也选取了六家国内头部大模型公司的产品与考生们一同参与一场客观且公平(让众多考生头皮发麻)的高考数学考试(新课标 Ⅰ 卷),其中包括 GPT-4o、GLM-4、文心一言 4.0、豆包、百小应(百川 4)以及通义千问 2.5。先来瞧一瞧这份「大模型成绩单」:令人惊讶的是,在这次模拟考试中,大模型(产品)的表现并未达到预期,甚至出现了几乎全部不及格

让考生头皮发麻的高考数学,可难倒了顶尖 AI 大模型。

一年一度的高考即将落幕,衷心希望各位考生都超常发挥,考出满意的好成绩!!

和往年一样,除了让 AI 大模型写写高考作文,我们也选取了六家国内头部大模型公司的产品与考生们一同参与一场客观且公平(让众多考生头皮发麻)的高考数学考试(新课标 Ⅰ 卷),其中包括 GPT-4o、GLM-4、文心一言 4.0、豆包、百小应(百川 4)以及通义千问 2.5。

先来瞧一瞧这份「大模型成绩单」:

图片

令人惊讶的是,在这次模拟考试中,大模型(产品)的表现并未达到预期,甚至出现了几乎全部不及格的情况,只有智谱最新发布的 GLM-4-0520 模型超过了及格线。

对大模型产品来说,高考语文作文可以直接测试它们的创造性写作技巧,包括构思、组织和表达观点的能力。

而在数学考试测试中,除了基本的计算能力、对数学知识的掌握,更能体现大模型在逻辑推理、抽象思维和问题解决方面的高级能力。大模型必须理解并运用数学概念、公式和定理,这要求它具备深厚的数学知识基础。同时,逻辑推理能力是解答数学题目的关键,大模型需要通过严密的逻辑推导来解决问题。

具体测试环节:

我们将评测的重点放在了高考数学的前 14 个客观题上,这些题目覆盖了基础的数学知识和计算能力,满分为 73 分。在测试时,我们将题目直接输入产品,不做 System Prompt 引导,直接输出结果;同时也没有触发搜索,没有来自外界的干扰。

分数计算方法依照高考真实判分原则:

单选题 8 道,每道 5 分,选项正确计分,错误不得分;

多选题 3 道,每道 6 分,全对计 6 分,漏选按正确答案数量计分,如答案为 ABCD,漏选其一扣 1.5 分,错选不得分;

填空题,3 道,每道 5 分,填空正确计分,错误不得分。

图片

                                    图|8 个模型对 14 道数学题的回答结果,绿色为正确、红色为错误、黄色为部分正确

具体而言,在满分 73 分、及格线为 43.8 分(60%)的情况下,六家大模型产品的分数结果分别为:GLM-4-0520 (63 分) > 智谱清言 (43 分) > GPT-4o (41 分) > 豆包 (40 分) > 文心 4 (30 分) = 百川 4 (30 分) > 通义千问 2.5 (29 分)

多说一句,每年的第 8 道单选题往往是高考数学卷中最难的一道题,被测试的大模型都 “全军覆灭” 了

完整测试结果如下:

单选题一

6个模型回答正确,1个回答错误)

GPT-4o:正确

图片

通义千问 2.5:正确

图片

GLM-4-0520:正确

图片

智谱清言:正确

图片

豆包:正确

图片

文心 4:错误

图片

百川 4:正确

图片

单选题二

(3个模型回答正确,4个回答错误)

GPT-4o:错误

图片

通义千问 2.5:正确

图片

GLM-4-0520:正确

图片

智谱清言:正确

图片

豆包:错误

图片

文心 4:错误

图片

百川 4:错误

图片

单选题三

(全部回答正确)

GPT-4o:正确图片

通义千问 2.5:正确

图片

GLM-4-0520:正确

图片

智谱清言:正确

图片

豆包:正确

图片

文心 4:正确

图片

百川 4:正确

图片

单选题四

(全部回答正确)

GPT-4o:正确

图片

通义千问 2.5:正确

图片

GLM-4-0520:正确

图片

智谱清言:正确

图片

豆包:正确

图片

文心 4:正确

图片

百川 4:正确

图片

单选题五

(6个模型回答正确,一个无响应)

GPT-4o:正确

图片

通义千问 2.5:无响应,最终提示系统超时

图片

GLM-4-0520:正确

图片

智谱清言:正确

图片

豆包:正确

图片

文心 4:正确

图片

百川 4:正确

图片

单选题六

(6个模型回答正确,一个回答错误)

GPT-4o:错误

图片

通义千问:正确

图片

GLM-4-0520:正确

图片

智谱清言:正确

图片

豆包:正确

图片

文心 4:正确

图片

百川 4:正确

图片

单选题七

(6个模型回答正确,一个回答错误)

GPT-4o:正确

图片

通义千问 2.5:错误

图片

GLM-4-0520:正确

图片

智谱清言:正确

图片

豆包:正确

图片

文心 4:正确

图片

百川 4:正确

图片

单选题八

(7个模型无一得出正确答案)

GPT-4o:错误

图片

通义千问2.5:错误

图片

GLM-4-0520:错误

图片

智谱清言:错误

图片

豆包:错误

图片

文心 4:错误

图片

百川 4:错误

图片

多选题一

(3个回答正确,2个部分正确,2个错误)

GPT-4o:正确

图片

通义千问 2.5:错误

图片

GLM-4-0520:正确

图片

智谱清言:部分正确

图片

豆包:正确

图片

文心 4:部分正确

图片

百川 4:错误

图片

多选题二

2个模型回答部分正确,5个回答错误

GPT-4o:错误

图片

通义千问 2.5:错误

图片

GLM-4-0520:部分正确

图片

智谱清言:部分正确

图片

豆包:错误

图片

文心 4:错误

图片

百川 4:错误

图片

多选题三

5个模型回答部分正确,2个回答错误

GPT-4o:错误

图片

通义千问 2.5:部分正确

图片

GLM-4-0520:部分正确

图片

智谱清言:部分正确

图片

豆包:部分正确

图片

文心 4:部分正确

图片

百川 4:错误

图片

填空题一

2个模型回答正确,5个回答错误

GPT-4o:正确

图片

通义千问 2.5:错误

图片

GLM-4-0520:正确

图片

智谱清言:错误

图片

豆包:错误

图片

文心 4:错误

图片

百川 4:错误

图片

填空题二

1个模型回答正确,6个回答错误

GPT-4o:错误

图片

通义千问 2.5:错误

图片

GLM-4-0520:正确

图片

智谱清言:错误

图片

豆包:错误

图片

文心 4:错误

图片

百川 4:错误

图片

填空题三

2个模型回答正确,5个回答错误

GPT-4o:正确

图片

通义千问 2.5:错误

图片

GLM-4-0520:正确

图片

智谱清言:错误

图片

豆包:错误

图片

文心 4:错误

图片

百川 4:错误

图片

相关资讯

设计师的文案加速器:5个超好用的AI写作助手工具测评

今天我要给大家介绍几款超级宝藏的 AI 写作助手工具,其中或许有大家所熟悉的产品。这些工具不仅精通语言艺术,更能在创作风格、语调和内容上提供专业的指导和支持。在接下来的章节中,我将介绍每个 AI 写作助手工具的简介、主要功能、使用场景以及使用示例。无论你是专注于视觉设计、用户体验设计,还是产品设计的专业人士,这些工具都将为你的工作流程带来显著的增益和创新灵感。让我们一起启程,探索这几款设计文案加速器吧~ 一、讯飞星火 简介:讯飞星火认知大模型是科大讯飞发布的大模型。该模型具有 7 大核心能力,即文本生成、语言理解、

最接近GPT-4的国产大模型诞生了

2024 年,国产大模型的第一个重磅消息,来自智谱 AI。在 1 月 16 日举办的 2024 智谱 AI 技术开放日 Zhipu DevDay 上,智谱 AI 正式发布新一代基座大模型「GLM-4」。经历了三个月的技术迭代,GLM-4 相比上一代基座模型 GLM-3 实现了 60% 的性能全面提升,直接逼近 GPT-4。一方面,GLM-4 支持更长的上下文、更强的多模态能力;另一方面,GLM-4 支持更快的推理、更多并发,大大降低了推理成本。同时,GLM-4 也增强了智能体能力,智谱 AI 正式上线了「GLM-4

百度大模型这一年:文心一言国内首个用户破亿,飞桨开发者超千万

2023 年,AI 大模型的最后一波突破来了。文心一言用户规模破 1 亿,飞桨的开发者数量达到 1070 万。只用短短两个月,文心大模型 4.0 整体效果又提升了 32%。2023 年 12 月 28 日,在刚刚过去的 WAVE SUMMIT 2023 深度学习开发者大会上,百度揭幕了文心大模型与深度学习平台飞桨的一系列新进展。在大会现场,百度的演示呈现了基于大模型进行 AI 原生应用开发的新方法和新思路。想开发一个 AI 原生应用,一行代码也不需要:基于星河社区大模型工具中心「多工具智能编排」开发模式,我们可以