谁才是最强的?清华给海内外知名大模型做了场综合本领评测

在 2023 年的 “百模大战” 中,众多实践者推出了各类模型,这些模型有的是原创的,有的是针对开源模型从事微调的;有些是通用的,有些则是行业特定的。如何能合理地评价这些模型的本领,成为关键问题。尽管国际外存在多个模型本领评测榜单,但它们的质量参差不齐,排名差异显著,这主要是因为评测数据和尝试方法尚不成熟和科学,而好的评测方法应当具备开放性、动态性、科学性和权威性。为提供客观、科学的评测标准,清华大学基础模型研究中心联合中关村实验室研制了 SuperBench 大模型综合本领评测框架,旨在推动大模型技术、应用和生态

在 2023 年的 “百模大战” 中,众多实践者推出了各类模型,这些模型有的是原创的,有的是针对开源模型从事微调的;有些是通用的,有些则是行业特定的。如何能合理地评价这些模型的本领,成为关键问题。

尽管国际外存在多个模型本领评测榜单,但它们的质量参差不齐,排名差异显著,这主要是因为评测数据和尝试方法尚不成熟和科学,而好的评测方法应当具备开放性、动态性、科学性和权威性。

为提供客观、科学的评测标准,清华大学基础模型研究中心联合中关村实验室研制了 SuperBench 大模型综合本领评测框架,旨在推动大模型技术、应用和生态的健康发展。

近期,二者发布了 2024 年 3 月的《SuperBench 大模型综合本领评测报告》。在此评测中,报告选定了 14 个海内外具有代表性的模型从事尝试。对于闭源模型,选取了 API 和网页两种调用模式中得分较高的一种从事评测。

谁才是最强的?清华给海内外知名大模型做了场综合本领评测

根据评测结果,报告得出以下几个主要结论:

● 整体来说,GPT-4 系列模型和 Claude-3 等国外模型在多个本领上依然处于领先地位,国际头部大模型 GLM-4 和文心一言 4.0 展现亮眼,与国际一流模型水平接近,且差异已经逐渐缩小。

● 国外大模型中,GPT-4 系列模型展现稳定,Claude-3 也展现了较强的综合实力,在语义理解和作为智能体两项本领评测中更是获得了榜首,跻身国际一流模型。

● 国际大模型中,GLM-4 和文心一言 4.0 在本次评测中展现最好,为国际头部模型;通义千问 2.1、Abab6、moonshot 网页版以及 qwen1.5-72b-chat 紧随其后,在部分本领评测中亦有不俗展现;但是国际大模型对比国际一流模型在代码编写、作为智能体两个本领上依然有较大差异,国际模型仍需努力。

大模型本领迁移 & SuperBench

自大言语模型诞生之初,评测便成为大模型研究中不可或缺的一部分。随着大模型研究的发展,对其性能重点的研究也在不断迁移。根据研究,大模型本领评测大概经历如下 5 个阶段:

2018 年 – 2021 年:语义评测阶段

早期的言语模型主要关注自然言语的理解使命 (e.g. 分词、词性标注、句法分析、信息抽取),相关评测主要考察言语模型对自然言语的语义理解本领。代表工作:BERT、 GPT、T5 等。

2021 年 – 2023 年:代码评测阶段

随着言语模型本领的增强,更具应用价值的代码模型逐渐出现。研究人员发现,基于代码生成使命训练的模型在尝试中展现出更强的逻辑推理本领,代码模型成为研究热点。代表工作:Codex、CodeLLaMa、CodeGeeX 等。

2022 年 – 2023 年:对齐评测阶段

随着大模型在各领域的广泛应用,研究人员发现续写式的训练方式与指令式的应用方式之间存在差异,理解人类指令、对齐人类偏好逐渐成为大模型训练优化的关键目标之一。对齐好的模型能够准确理解并响应用户的意图,为大模型的广泛应用奠定了基础。代表工作:InstructGPT、ChatGPT、GPT4、ChatGLM 等。

2023 年 – 2024 年:智能体评测阶段

基于指令遵从和偏好对齐的本领,大模型作为智能中枢对复杂使命从事拆解、规划、决策和执行的本领逐渐被发掘。大模型作为智能体解决实际问题也被视为迈向通用人工智能(AGI)的重要方向。代表工作:AutoGPT、AutoGen 等。

2023 年 – future:安全评测阶段

随着模型本领的提升,对模型安全性和价值观的评估、监管与强化逐渐成为研究人员关注的重点。加强对潜在风险的研判,确保大模型的可控、可靠和可信,是未来 “AI 可持续发展” 的关键问题。

因此,为了全面地评估大模型的各项本领,SuperBench 评测体系包含了语义、代码、对齐、智能体和安全等五个评测大类,28 个子类。

谁才是最强的?清华给海内外知名大模型做了场综合本领评测

评测结果

PART/1 语义评测

ExtremeGLUE 是一个包含 72 个中英双语传统数据集的高难度集合,旨在为言语模型提供更严格的评测标准,采用零样本 CoT 评测方式,并根据特定要求对模型输出从事评分。报告首先使用了超过 20 种言语模型从事初步尝试,包括了 GPT-4、Claude、Vicuna、WizardLM 和 ChatGLM 等。基于所有模型的综合展现,决定了每个分类中挑选出难度最大的 10%~20% 数据,将它们组合为 "高难度传统数据集"。

评测方法 & 过程

●  评测方式:收集了 72 个中英双语传统数据集,提取其中高难度的题目组成 4 个维度的评测数据集,采取零样本 CoT 评测方式,各维度得分计算方式为回答正确的题目数所占百分比,最终总分取各维度的平均值。

●  评测过程:根据不同题目的形式和要求,对于模型的零样本 CoT 生成的结果从事评分。

谁才是最强的?清华给海内外知名大模型做了场综合本领评测

整体展现:

谁才是最强的?清华给海内外知名大模型做了场综合本领评测

在语义理解本领评测中,各模型形成了三个梯队,70 分档为第一梯队,包括 Claude-3、GLM-4、文心一言 4.0 以及 GPT-4 系列模型;其中 Claude-3 得分为 76.7,位居第一;国际模型 GLM-4 和文心一言 4.0 则超过 GPT-4 系列模型位居第二和第三位,但是和 Claude-3 有 3 分差异。

分类展现:

谁才是最强的?清华给海内外知名大模型做了场综合本领评测

●  知识 – 常识:Claude-3 以 79.8 分领跑,国际模型 GLM-4 展现亮眼,超过 GPT-4 网页版位居第二;文心一言 4.0 展现不佳,距离榜首 Claude-3 有 12.7 分差异。

●  知识 – 科学:Claude-3 依然领先,并且是唯一一个 80 分以上模型;文心一言 4.0、GPT-4 系列模型以及 GLM-4 模型均在 75 分以上,为第一梯队模型。

●  数学:Claude-3 和文心一言 4.0 并列第一,得 65.5 分,GLM-4 领先 GPT-4 系列模型位列第三,其他模型得分在 55 分附近较为集中,当前大模型在数学本领上仍有较大提升空间。

●  阅读理解:各分数段分布相对较为平均,文心一言 4.0 超过 GPT-4 Turbo、Claude-3 以及 GLM-4 拿下榜首。

PART/2 代码评测

NaturalCodeBench(NCB)是一个评估模型代码本领的基准尝试,传统的代码本领评测数据集主要考察模型在数据结构与算法方面的解题本领,而 NCB 数据集侧重考察模型在真实编程应用场景中写出正确可用代码的本领。

所有问题都从用户在线上服务中的提问筛选得来,问题的风格和格式更加多样,涵盖数据库、前端开发、算法、数据科学、操作系统、人工智能、软件工程等七个领域的问题,可以简单分为算法类和功能需求类两类。题目包含 java 和 python 两类编程言语,以及华文、英文两种问题言语。每个问题都对应 10 个人类撰写矫正的尝试样例,9 个用于尝试生成代码的功能正确性,剩下 1 个用于代码对齐。

评测方法 & 过程

●  评测方式:运行模型生成的函数,将输出结果与准备好的测例结果从事比对从事打分。将输出结果与准备好的测例结果从事比对从事打分,最终计算生成代码的一次通过率 pass@1。

●  评测过程:给定问题、单元尝试代码、以及测例,模型首先根据问题生成目标函数;运行生成的目标函数,以测例中的输入作为参数得到函数运行输出,与测例中的标准输出从事比对,输出匹配得分,输出不匹配或函数运行错误均不得分。

谁才是最强的?清华给海内外知名大模型做了场综合本领评测

整体展现:

谁才是最强的?清华给海内外知名大模型做了场综合本领评测

在代码编写本领评测中,国际模型与国际一流模型之间仍有明显差异,GPT-4 系列模型、Claude-3 模型在代码通过率上明显领先,国际模型中 GLM-4,文心一言 4.0 与讯飞星火 3.5 展现突出,综合得分达到 40 分以上;然而,即使是展现最好的模型在代码的一次通过率上仍只有 50% 左右,代码生成使命对目前的大模型来说仍是一大挑战。

分类展现:谁才是最强的?清华给海内外知名大模型做了场综合本领评测

在 Python、Java、华文、英文四个维度的数据集中 GPT-4 系列模型包揽头名,体现出强大而全面的代码本领,除 Claude-3 外其余模型差异明显;

●  英文代码指令:GPT-4 Turbo 比 Claude-3 在 Python 和 Java 问题上分别高出 6.8 分和 1.5 分,比 GLM-4 在 Python 和 Java 问题上分别高出 14.2 分和 5.1 分,国际模型与国际模型在英文代码指令上差异比较明显;

●  华文代码指令:GPT-4 Turbo 比 Claude-3 在 Python 上高出 3.9 分,在 Java 上低 2.3 分,差异不大。GPT-4 Turbo 比 GLM-4 在 Python 和 Java 问题上分别高出 5.4 分和 2.8 分,国际模型在华文编码本领上与国际一流模型仍存在一定差异。

PART/3 对齐评测

AlignBench 旨在全面评测大模型在华文领域与人类意图的对齐度,通过模型打分评测回答质量,衡量模型的指令遵循和有用性。它包括 8 个维度,如基本使命和专业本领,使用真实高难度问题,并有高质量参考答案。优秀展现要求模型具有全面本领、指令理解和生成有帮助的答案。

“华文推理” 维度重点考察了大模型在华文为基础的数学计算、逻辑推理方面的展现。这一部分主要由从真实用户提问中获取并撰写标准答案,涉及多个细粒度领域的评估:

●  数学计算上,囊括了初等数学、高等数学和日常计算等方面的计算和证明。

●  逻辑推理上,则包括了常见的演绎推理、常识推理、数理逻辑、脑筋急转弯等问题,充分地考察了模型在需要多步推理和常见推理方法的场景下的展现。

“华文言语” 部分着重考察大模型在华文文字言语使命上的通用展现,具体包括六个不同的方向:基本使命、华文理解、综合问答、文本写作、角色扮演、专业本领。这些使命中的数据大多从真实用户提问中获取,并由专业的标注人员从事答案撰写与矫正,从多个维度充分地反映了大模型在文本应用方面的展现水平。具体来说:

●  基本使命考察了在常规 NLP 使命场景下,模型泛化到用户指令的本领;

●  华文理解上,着重强调了模型对于中华民族传统文化和汉字结构渊源的理解;

●  综合问答则关注模型回答一般性开放问题时的展现;

●  文本写作则揭示了模型在文字工作者工作中的展现水平;

●  角色扮演是一类新兴的使命,考察模型在用户指令下服从用户人设要求从事对话的本领;

●  专业本领则研究了大模型在专业知识领域的掌握程度和可靠性。

评测方法 & 过程

●  评测方式:通过强模型(如 GPT-4)打分评测回答质量,衡量模型的指令遵循本领和有用性。打分维度包括事实正确性、满足用户需求、清晰度、完备性、丰富度等多项,且不同使命类型下打分维度不完全相同,并基于此给出综合得分作为回答的最终分数。

●  评测过程:模型根据问题生成答案、GPT-4 根据生成的答案和尝试集提供的参考答案从事详细的分析、评测和打分。

谁才是最强的?清华给海内外知名大模型做了场综合本领评测

整体展现:

谁才是最强的?清华给海内外知名大模型做了场综合本领评测

在人类对齐本领评测中,GPT-4 网页版占据榜首,文心一言 4.0 和 GPT-4 Turbo 同分(7.74)紧随其后,国际模型中 GLM-4 同样展现优异,超越 Claude-3,位列第四,通义千问 2.1 略低于 Claude-3,排名第六,同为第一梯队大模型。

分类展现:

谁才是最强的?清华给海内外知名大模型做了场综合本领评测

华文推理整体分数明显低于华文言语,当下大模型推理本领整体有待加强:

●  华文推理:GPT-4 系列模型展现最好,略高于国际模型文心一言 4.0,并且和其他模型拉开明显差异;

●  华文言语:国际模型包揽了前四名,分别是 KimiChat 网页版(8.05 分)、通义千问 2.1(7.99 分)、GLM-4(7.98 分)、文心一言 4.0(7.91 分),超过 GPT-4 系列模型和 Claude-3 等国际一流模型。

各分类细拆分析:

谁才是最强的?清华给海内外知名大模型做了场综合本领评测

华文推理:

●  数学计算:GPT-4 系列模型包揽前两名,国际模型文心一言 – 4.0、通义千问 2.1 分数超过 Claude-3,但与 GPT-4 系列模型仍有一定差异。

●  逻辑推理:7 分以上为第一梯队,由国际模型文心一言 4.0 领跑,同在第一梯队的还有 GPT-4 系列模型、Claude-3、GLM4 和 Abab6。

华文言语:

●  基本使命:GLM-4 拿下榜首,通义千问 2.1、Claude-3 和 GPT-4 网页版占据二到四位,国际其他大模型华文心一言 4.0 和 KimiChat 网页版也展现较好,超过了 GPT-4 Turbo。

●  华文理解:国际模型整体展现较好,包揽了前四名,文心一言 4.0 领先优势明显,领先第二名 GLM-4 0.41 分;国外模型中,Claude-3 展现尚可,排在第五位,但 GPT-4 系列模型展现较差,排在中下游,并且和第一名分差超过 1 分。

●  综合问答:各大模型均展现较好,超过 8 分的模型达到了 6 家,GPT-4 网页版和 KimiChat 网页版拿下最高分,GLM-4 和 Claude-3 分数相同,与榜首分数接近,并列第三。

●  文本写作:KimiChat 网页版展现最好,同时也是唯一一个 8 分以上的模型,GPT-4 Turbo 和通义千问 2.1 分列二、三位。

●  角色扮演:国际模型 Abab6、通义千问 2.1 和 KimiChat 网页版包揽前三名,且均在 8 分以上,超过 GPT-4 系列模型和 Claude-3 等国际一流模型。

●  专业本领:GPT-4 Turbo 占据了首位,KimiChat 网页版超过 GPT-4 网页版拿下第二名,国际其他模型中,GLM-4 和通义千问 2.1 同样展现不俗,并列排名第四。

PART/4 智能体评测

AgentBench 是一个评估言语模型在操作系统、游戏和网页等多种实际情况中作为智能体性能的综合基准尝试工具包。

代码情况:该部分关注 LLMs 在协助人类与计计算机代码接口互动方面的潜在应用。LLMs 以其出色的编码本领和推理本领,有望成为强大的智能代理,协助人们更有效地与计算机界面从事互动。为了评估 LLMs 在这方面的展现,报告引入了三个代表性的情况,这些情况侧重于编码和推理本领。这些情况提供了实际的使命和挑战,尝试 LLMs 在处理各种计算机界面和代码相关使命时的本领。

游戏情况:游戏情况是 AgentBench 的一部分,旨在评估 LLMs 在游戏场景中的展现。在游戏中,通常需要智能体具备强大的策略设计、遵循指令和推理本领。与编码情况不同,游戏情况中的使命不要求对编码具备专业知识,但更需要对常识和世界知识的综合把握。这些使命挑战 LLMs 在常识推理和策略制定方面的本领。

网络情况:网络情况是人们与现实世界互动的主要界面,因此在复杂的网络情况中评估智能体的行为对其发展至关重要。在这里,报告使用两个现有的网络浏览数据集,对 LLMs 从事实际评估。这些情况旨在挑战 LLMs 在网络界面操作和信息检索方面的本领。

评测方法 & 过程

●  评测方式:模型和预先设定好的情况从事多轮交互以完成各个特定的使命,情景猜谜子类会使用 GPT-3.5-Turbo 对最终答案从事评分,其余子类的评分方式根据确定的规则对模型完成使命的情况从事打分。

●  评测过程:模型与模拟情况从事交互,之后对模型给出的结果采用规则评分或 GPT-3.5-Turbo 评分。

●  打分规则:由于不同子使命的分数分布不同,直接按平均分计算总分受极值的影响较为严重,因此需要对各子使命的分数从事归一化处理。如下表所示,各个子使命对应的 “Weight (-1)” 的值即是归一化的权重,这个值为在 Agentbench 上最初尝试的模型在该子使命上得分的平均值。计算总分时将各个子使命的分数除以 Weight (-1) 后求平均值即可。根据该计算方式,具有平均本领的模型最终得到的总分应为 1。

谁才是最强的?清华给海内外知名大模型做了场综合本领评测

                             SR:成功率

                             #Avg.Turn:解决单一问题所需的平均交互回合数

                            #Dev、#Test:开发集和尝试集单个模型的预期总交互轮数

                           Weight⁻¹:各单项分在计算总分的时候的权重的倒数

整体展现:

谁才是最强的?清华给海内外知名大模型做了场综合本领评测

在作为智能体本领评测中,国际模型整体明显落后于国际一流模型;Claude-3 和 GPT-4 系列模型占据了前三甲,GLM-4 在国际模型中展现最好,但与榜首的 Claude-3 仍有较大差异;国际外大模型在本本领下均展现欠佳,主要原因是智能体对模型要求远高于其他使命,现有的绝大部分模型还不具有很强的智能体本领。

分类展现:

谁才是最强的?清华给海内外知名大模型做了场综合本领评测

除网上购物被国际模型 GLM-4 拿到头名外,其他分类下,榜首均被 Claude-3 和 GPT-4 系列模型占据,体现出相对强大的作为智能体本领,国际模型仍需不断提升。

●  具身智能(Alfworld)前三甲均被 Claude-3 和 GPT-4 系列模型包揽,和国际模型差异最大。

●  在数据库(DB)和知识图谱(KG)两个维度下,国际模型 GLM-4 均进入 top3,但是与前两名仍有一定差异。

PART/5 安全评测

SafetyBench 是首个全面的通过单选题的方式评估大型言语模型安全性的尝试基准。包含攻击冒犯、偏见歧视、身体健康、心理健康、违法活动、伦理道德、隐私财产等。

评测方法 & 过程

●  评测方式:每个维度收集上千个多项选择题,通过模型的选择尝试对各个安全维度的理解和掌握本领从事考察。评测时采用 few-shot 生成方式,从生成结果中抽取答案与真实答案比较,模型各维度得分为回答正确的题目所占百分比,最终总分取各个维度得分的平均值。针对拒答现象,将分别计算拒答分数和非拒答分数,前者将拒答题目视为回答错误,后者将拒答题目排除出题库。

●  评测过程:从模型针对指定问题 few-shot 的生成结果中提取答案,与真实答案比较。

谁才是最强的?清华给海内外知名大模型做了场综合本领评测

整体展现:

谁才是最强的?清华给海内外知名大模型做了场综合本领评测

在安全本领评测中,国际模型文心一言 4.0 展现亮眼,力压国际一流模型 GPT-4 系列模型和 Claude-3 拿下最高分(89.1 分),在国际其他模型中,GLM-4 和 Claude-3 同分,并列第四。

分类展现:谁才是最强的?清华给海内外知名大模型做了场综合本领评测

在违法活动、身体健康、攻击冒犯、心理健康、隐私财产这五个分类下,各模型各有胜负,但是在伦理道德和偏见歧视上,各个模型分差较大,并保持了和总分较为一致的偏序关系。

●  伦理道德:文心一言 4.0 力压 Claude-3 位列第一,国际大模型 GLM-4 同样展现亮眼,超过 GPT-4 Turbo 位列前三甲。

●  偏见歧视:文心一言 4.0 继续排名榜首,领先 GPT-4 系列模型,GLM-4 紧随其后,同为第一梯队模型。

给TA打赏
共{{data.count}}人
人已打赏
应用

2024谷歌研讨学者计划名单公布:清华、北大、上交ACM班等校友在列

2024-4-19 11:56:00

应用

港股IPO招股异常火爆,唯一盈利的「AIGC第一股」是怎么炼成的?

2024-4-19 12:06:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索