“国家队”评测30个大模型数学能力,九章、文心、星火位列前三

去年ChatGPT横空出世后,我国也迎来“百模大战”,大模型能力测评成为业界前沿课题。近日,大模型数学能力权威测评基准MathEval围绕数学能力,对国内外30个大模型(含同一模型的不同版本)开展测评。根据测评结果,学而思九章、百度文心一言4.0、讯飞星火V3.5摘得前三名。其中,学而思旗下九章大模型在整体表现和中文、英文、各学段子榜单中,都具备领先优势。 数据显示,截至去年10月,国内累计发布大模型超200个。大模型越来越多地被运用到数学应用领域,包括数学问题解决、数据分析、学术研究、学习辅导等。目前,通用或垂类

去年ChatGPT横空出世后,我国也迎来“百模大战”,大模型能力测评成为业界前沿课题。近日,大模型数学能力权威测评基准MathEval围绕数学能力,对国内外30个大模型(含同一模型的不同版本)开展测评。根据测评结果,学而思九章、百度文心一言4.0、讯飞星火V3.5摘得前三名。其中,学而思旗下九章大模型在整体表现和中文、英文、各学段子榜单中,都具备领先优势。

“国家队”评测30个大模型数学能力,九章、文心、星火位列前三

 数据显示,截至去年10月,国内累计发布大模型超200个。大模型越来越多地被运用到数学应用领域,包括数学问题解决、数据分析、学术研究、学习辅导等。目前,通用或垂类大模型都具备一定的数学能力,而其能力表现则需要专门测评。不过现有大模型能力测评多数是对通用能力的测评,也有对推理能力、自然科学能力的专门测评中,但没有专门针对数学能力测评的参考基准,以及专门的权威测评机构。

近日MathEval(官网:https://matheval.ai)的上线,弥补了行业空白。MathEval由智慧教育国家新一代人工智能开放创新平台联合暨南大学、北京师范大学、华东师范大学、西安交通大学、香港城市大学共同发起,是一个专注于全面评估大模型数学能力的测评基准,旨在全面评估大模型在算术、小初高竞赛和部分高等数学分支在内的解题能力表现。

截至目前,MathEval收集了2010年以来共19个被广泛使用的数学能力测评数据集,这些数据集来自ACL、AAAI、ICLR等数十个国际人工智能顶会论文中的公开数据,覆盖了不同年级、题型、文本形式和难度的数学问题,从而提供全面、具体的数学能力测评结果。

最新这次测评中,MathEval测试了30个大模型。在评测过程中,MathEval团队使用了GPT4大模型来进行答案抽取和答案的匹配,减少基于规则进行评测所带来的误差。结果显示,九章大模型在整体榜单和子榜单均排第一名。

九章大模型是由学而思自主研发的、面向全球数学爱好者和科研机构的垂类大模型。据悉,该公司在相关研发方面已累计投入超10亿元。可以说,作为少有的专注解题和讲题算法的大模型,九章这一表现并不意外。

同时,作为通用大模型的文心一言4.0、讯飞星火V3.5在测评中的表现也颇为亮眼,占据了第二、三位,均优于GPT-4。由此可见,国产大模型在数学方面的能力已经实现了赶超,未来能力提升和落地应用值得期待。

相关资讯

基于LLaMA却改张量名,李开复公司大模型开源行为引争议,官方回应来了

机器之心报道机器之心编辑部有研究者发现,李开复「零一万物」公司的 Yi-34B 模型基本上采用了 LLaMA 的架构,只是重命名了两个张量。对此,「零一万物」给出了官方回应。前段时间,开源大模型领域迎来了一个新的模型 —— 上下文窗口大小突破 200k,能一次处理 40 万汉字的「Yi」。这个大模型由创新工场董事长兼 CE0 李开复创立的大模型公司「零一万物」构建,包括了 Yi-6B 和 Yi-34B 两个版本。根据 Hugging Face 英文开源社区平台和 C-Eval 中文评测榜单,Yi-34B 推出时取得

做大模型时代的最佳云底座,百度智能云打出三套「组合拳」

不破不立,重构云计算这件事,百度智能云公布了最新进展。

大模型+机器人,详尽的综述报告来了,多位华人学者参与

大模型的出色能力有目共睹,而如果将它们整合进机器人,则有望让机器人拥有一个更加智能的大脑,为机器人领域带来新的可能性,比如自动驾驶、家用机器人、工业机器人、辅助机器人、医疗机器人、现场机器人和多机器人系统。预训练的大型语言模型(LLM)、大型视觉 - 语言模型(VLM)、大型音频 - 语言模型(ALM)和大型视觉导航模型(VNM)可以被用于更好地处理机器人领域的各种任务。将基础模型整合进机器人是一个快速发展的领域,机器人社区最近已经开始探索将这些大模型用于感知、预测、规划和控制等机器人领域。近日,斯坦福大学和普林斯