通义千问、GPT-4o 等七款 AI 大模型“高考成绩”公布：前三名文科过一本，理科过二本

2024-07-18 02:56

感谢上海人工智能实验室 17 日公布了针对 7 个 AI 大模型的高考全科目测试结果，据大模型开源开放评测体系“司南”相关负责人介绍，“当前大模型仍存在很大的局限性。组织 AI 大模型‘参加高考’，目的是评测当前大模型的真实水平，找准问题，持续推进技术进步。”测试结果显示，书生・浦语 2.0 系列文曲星大模型（浦语文曲星）、阿里通义千问大模型 Qwen2-72B 以及 GPT-4o 再次包揽文、理科前三甲；前三名 AI“考生”的文、理科成绩分别超过了“一本”“二本”线（以今年高考人数最多的河南省的分数线为参考）。从

感谢上海人工智能实验室 17 日公布了针对 7 个 AI 大模型的高考全科目测试结果，据大模型开源开放评测体系“司南”相关负责人介绍，“当前大模型仍存在很大的局限性。组织 AI 大模型‘参加高考’，目的是评测当前大模型的真实水平，找准问题，持续推进技术进步。”

测试结果显示，书生・浦语 2.0 系列文曲星大模型（浦语文曲星）、阿里通义千问大模型 Qwen2-72B 以及 GPT-4o 再次包揽文、理科前三甲；前三名 AI“考生”的文、理科成绩分别超过了“一本”“二本”线（以今年高考人数最多的河南省的分数线为参考）。

从官方提供的图片来看，此次参与“高考”的大模型还包括来自零一万物的 Yi-1.5-34B、来自通义千问的 Qwen2-57B、来自智谱的 GLM-4-9B 和法国 AI 初创公司 Mistral 旗下的 Mixtral 8×22B。

据介绍，此次评测具备如下特征：

全卷考试：进行全卷评分，而不只针对单一题型，且包括带图的高考题

考前开源：评测覆盖的开源模型均为今年高考前开源的模型，排除泄题的可能性

老师打分：邀请有高考阅卷经验的老师打分，确保评分和高考尽量一致

完全公开：生成答案的代码、模型答卷、评分结果完全开源

在增加综合科目的基础上，Qwen2-72B、GPT-4o、浦语文曲星包揽文、理科前三甲。阿里通义千问大模型 Qwen2-72B 以 546 分的成绩荣获 AI 高考“文科状元”，浦语文曲星则以 468.5 分成为理科第一名，分别超过了“非开源国际插班生”GPT-4o（文科 531 分，理科 467 分）。同为国外机构发布的 Mixtral 8x22B 平均得分最少，弱于国内大模型的高考表现。

通义千问、GPT-4o 等七款 AI 大模型“高考成绩”公布：前三名文科过一本，理科过二本

阅卷老师们一致认为，大模型与真人考生仍存在差距，虽然对于基础知识的掌握表现出色，但在逻辑推理和知识灵活应用方面，大模型仍然差强人意。具体而言，在作答主观题时，大模型往往无法完整理解题干，不明白代词指向，结果导致答非所问；解答数学题时，解题过程机械且逻辑性差，对于几何题，常出现与空间逻辑相违背的推断；对物理、化学实验理解肤浅，无法准确识别并运用实验器材。

此外，大模型也会伪造虚构内容，编造看似合理但实际不存在的诗句，或在存在明显计算错误的情况下之后不反思，“硬着头皮蒙”一个答案，均给阅卷老师带来了困扰。

据AI在线此前报道，根据上海人工智能实验室上个月公布的 AI 高考全卷结果，Qwen2-72B、GPT-4o 及书生・浦语 2.0 文曲星（InternLM2-20B-WQX）成为本次大模型高考的前三甲，得分率均超过 70%。大部分模型“考生”语文、英语科目表现良好，但数学方面仍有很大提升空间。

公开评测细节：点此前往

相关阅读：

《上海人工智能实验室发布首个 AI 高考评测结果：语数英总分最高 303 分，数学全部不及格》

上海人工智能实验室发布首个 AI 高考评测结果：语数英总分最高 303 分，数学全部不及格

感谢上海人工智能实验室 19 日公布了首个 AI 高考全卷评测结果。据介绍，2024 年全国高考甫一结束，该实验室旗下司南评测体系 OpenCompass 选取 6 个开源模型及 GPT-4o 进行高考“语数外”全卷能力测试。评测采用全国新课标 I 卷，参与评测的所有开源模型开源时间均早于高考，确保评测“闭卷”性。同时，成绩由具有高考评卷经验的教师人工评判，更加接近真实阅卷标准。该机构表示，Qwen2-72B、GPT-4o 及书生・浦语 2.0 文曲星（InternLM2-20B-WQX）成为本次大模型高考的前三甲

6/20/2024 8:33:50 AM

清源

1342万考生填报志愿这件事，AI搜索可帮了大忙

大模型、AI 搜索的一次重要实践。又是一年，千军万马过独木桥。就在本月，2024 年高考刚刚结束。今年的高考报名人数达到了创纪录的 1342 万。对于很多人来说，人生正在迈入一个新的阶段。下个星期，各省市即将进入志愿填报阶段，相比考试本身，这部分工作同样重要，有关大量信息的获取和分析，也需要学生、家长和老师的共同努力。就连机器之心的公众号后台，最近也有人留言希望获得人工智能专业报考的指导。今年的高考报志愿称得上「史无前例」：除了考生人数多，另一个关键词是「新高考」。自 2014 年起，我国开启了自恢复统一高考以来最

6/20/2024 3:44:00 PM

机器之心

大模型的高考数学成绩单：及格已经非常好了

让考生头皮发麻的高考数学，可难倒了顶尖 AI 大模型。一年一度的高考即将落幕，衷心希望各位考生都超常发挥，考出满意的好成绩！！和往年一样，除了让 AI 大模型写写高考作文，我们也选取了六家国内头部大模型公司的产品与考生们一同参与一场客观且公平（让众多考生头皮发麻）的高考数学考试（新课标 Ⅰ 卷），其中包括 GPT-4o、GLM-4、文心一言 4.0、豆包、百小应（百川 4）以及通义千问 2.5。先来瞧一瞧这份「大模型成绩单」：令人惊讶的是，在这次模拟考试中，大模型（产品）的表现并未达到预期，甚至出现了几乎全部不及格

6/11/2024 12:38:00 AM

机器之心

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星本地部署DeepSeek+DiFy平台构建智能体应用 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o OpenAI 发布“智能体构建实战指南”实用性文档（附文档资源）

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度人形机器人苹果深度学习 AI视频模态字节跳动 xAI 驾驶文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉大型语言模型训练

顶部

通义千问、GPT-4o 等七款 AI 大模型“高考成绩”公布 ：前三名文科过一本，理科过二本

相关资讯

上海人工智能实验室发布首个 AI 高考评测结果：语数英总分最高 303 分，数学全部不及格

1342万考生填报志愿这件事 ，AI搜索可帮了大忙

大模型的高考数学成绩单：及格已经非常好了

通义千问、GPT-4o 等七款 AI 大模型“高考成绩”公布：前三名文科过一本，理科过二本

1342万考生填报志愿这件事，AI搜索可帮了大忙