“国家队”评测30个大模型数学才能,九章、文心、星火位列前三

去年ChatGPT横空出世后,我国也迎来“百模大战”,大模型才能测评成为业界前沿课题。近日,大模型数学才能威信测评基准MathEval围绕数学才能,对国内外30个大模型(含同一模型的不同版本)开展测评。根据测评结果,学而思九章、百度文心一言4.0、讯飞星火V3.5摘得前三名。其中,学而思旗下九章大模型在整体表示和中文、英文、各学段子榜单中,都具有领先优势。 数据显示,截至去年10月,国内累计发布大模型超200个。大模型越来越多地被运用到数学应用领域,包括数学问题解决、数据分析、学术研究、学习辅导等。目前,通用或垂类

去年ChatGPT横空出世后,我国也迎来“百模大战”,大模型才能测评成为业界前沿课题。近日,大模型数学才能威信测评基准MathEval围绕数学才能,对国内外30个大模型(含同一模型的不同版本)开展测评。根据测评结果,学而思九章、百度文心一言4.0、讯飞星火V3.5摘得前三名。其中,学而思旗下九章大模型在整体表示和中文、英文、各学段子榜单中,都具有领先优势。

“国家队”评测30个大模型数学才能,九章、文心、星火位列前三

 数据显示,截至去年10月,国内累计发布大模型超200个。大模型越来越多地被运用到数学应用领域,包括数学问题解决、数据分析、学术研究、学习辅导等。目前,通用或垂类大模型都具有一定的数学才能,而其才能表示则需要特地测评。不过现有大模型才能测评多数是对通用才能的测评,也有对推理才能、自然科学才能的特地测评中,但没有特地针对数学才能测评的参考基准,以及特地的威信测评机构。

近日MathEval(官网:https://matheval.ai)的上线,弥补了行业空白。MathEval由智慧教育国家新一代人工智能开放创新平台联合暨南大学、北京师范大学、华东师范大学、西安交通大学、香港城市大学共同发起,是一个专一于周全评价大模型数学才能的测评基准,旨在周全评价大模型在算术、小初高竞赛和部分高等数学分支在内的解题才能表示。

截至目前,MathEval收集了2010年以来共19个被广泛使用的数学才能测评数据集,这些数据集来自ACL、AAAI、ICLR等数十个国际人工智能顶会论文中的公开数据,覆盖了不同年级、题型、文本形式和难度的数学问题,从而提供周全、具体的数学才能测评结果。

最新这次测评中,MathEval测试了30个大模型。在评测过程中,MathEval团队使用了GPT4大模型来进行谜底抽取和谜底的匹配,减少基于规则进行评测所带来的误差。结果显示,九章大模型在整体榜单和子榜单均排第一名。

九章大模型是由学而思自主研发的、面向全球数学爱好者和科研机构的垂类大模型。据悉,该公司在相关研发方面已累计投入超10亿元。可以说,作为少有的专一解题和讲题算法的大模型,九章这一表示并不意外。

同时,作为通用大模型的文心一言4.0、讯飞星火V3.5在测评中的表示也颇为亮眼,占据了第二、三位,均优于GPT-4。由此可见,国产大模型在数学方面的才能已经实现了赶超,未来才能提升和落地应用值得期待。

给TA打赏
共{{data.count}}人
人已打赏
应用

这下火了,半个硅谷科技圈都投了它

2024-3-1 16:10:00

应用

美图AI全部重绘技术大揭秘!想怎么改,就怎么改!美图全部重绘让你随心所欲

2024-3-1 18:50:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索