大模型落地最后一公里：111页全面综述大模型评测

当前，大模型正凭借其强大的威力和无限的潜力引领着新一轮技术革命，众多科技巨头纷纷围绕大模型举行布局，进一步推动大模型不断向前发展。然而，尽管大模型能够协助我们完成各种任意，改变我们的生产和生活的方式，提高生产力，为我们带来便利，但大模型的发展也伴随着诸多危害与挑战，如泄露隐私数据，生成带有成见、暴力、歧视、违反基本品德和法律法规的实质，传播虚假信息等。不仅如此，随着大模型威力的飞速进步，其产生自我保持、自我复制、追求权力和资源、奴役其它机器和人类等与人类价值不符的 “欲望” 倾向开始逐步呈现出来。因此，在大模型高歌猛进的今天，追踪大模型的技术进步，对大模型威力及其不足之处形成更深入的认识和理解，预知并防范大模型带来的安全挑战和危害，需要针对大模型开展全方位的评测，以引导大模型朝着更健康和更安全的方向发展，让大模型的发展成果惠及全人类。

然而，当前对大模型举行全方位评测面临诸多挑战，由于大模型的通用性强，能够胜任多种任意，因此大模型的全方位评测涉及的范围广、工作量大、评测成本高昂；其次，由于数据标注工作量大，许多维度的评测基准仍然有待构建；再次，自然语言的多样性和复杂性，使得许多评测样本无法形成标准答案，或者标准答案不止一个，这导致相应的评测指标难以量化；此外，大模型在现有评测数据集的表现难以代表其在真实应用场景的表现。

为了应对以上挑战，激发大家对大模型评测研讨的兴趣，推动大模型评测研讨与大模型技术研讨发展相协调，天津大学自然语言处理实验室最近发布了大模型评测的综述文章。该综述文章共有 111 页，其中正文部分 58 页，引用了 380 余篇参考文献。

论文地址：https://arxiv.org/abs/2310.19736

论文参考文献详细列表：https://github.com/tjunlp-lab/Awesome-LLMs-Evaluation-Papers

如图 2 所示，该综述将整个大模型评测按照评测维度的不同分为了 5 个评测类别：（1）学问和威力评测，（2）对齐评测，（3）安全评测，（4）行业大模型评测，（5）（综合）评测组织。这 5 个评测类别基本囊括了当前大模型评测的主要研讨领域。在引见每个评测类别时，该综述对相关的研讨工作举行了梳理，以树状结构的思想导图形式展示了各个研讨工作之间的关系，以清晰展示该领域整体的研讨框架。不仅如此，该综述还探讨了大模型评测的未来发展方向，强调了大模型评测应该与大模型本身协同进步。希望该综述能够为对大模型评测领域感兴趣的研讨者和工程技术人员提供参考，鉴于该综述，对大模型评测的发展和现状形成较为全面的了解，并对大模型评测中的关键和开放问题举行深入思考。

大模型落地最后一公里：111页全面综述大模型评测

图 2 大模型评测研讨中的 5 个主要评测类别及其子类别

学问和威力评测

学问和威力是评测大模型的核心维度之一。大模型的飞速发展，使其在诸多复杂任意中不断取得突破，并被广泛应用于越来越多的实际业务场景中。对其是否可以胜任真实场景任意，需要对大模型的学问和威力水平举行综合评价。该综述讨论了大模型的问答威力评测、学问补全威力评测、推理威力评测及工具学习威力评测，并梳理了相关的评测基准数据集、评测法子和评测结果。在推理威力评测中，该综述引见了目前常见的 4 种推理类型：（1）常识推理，（2）逻辑推理，（3）多跳推理，（4）数学推理。在工具学习威力评测中，该综述详细引见了工具调用威力评测和工具创造威力评测。对应的思想导图如图 3 所示。

大模型落地最后一公里：111页全面综述大模型评测

图 3 大模型学问和威力评测

对齐评测

对大模型举行对齐评测能够提前预知大模型带来的负面影响，以便提前采取措施消除伦理价值未对齐问题。在对齐评测中，该综述讨论了大模型的品德和伦理评测、成见性评测、毒性评测和诚实性评测，其对应的思想导图如图 4 所示。

大模型落地最后一公里：111页全面综述大模型评测

图 4 大模型的对齐评测

大模型的品德和伦理评测旨在评价其生成实质中是否存在违背社会公认的品德伦理标准的情况。该综述根据评价准则的不同将品德和伦理评测分为四个部分：（1）鉴于专家定义的品德伦理标准评测，即采用书籍、文章等专业来源中定义的品德伦理标准作为评价标准，然后采用众包的方式制作相应的评测数据集；（2）鉴于众包方式的品德伦理标准评测，其品德伦理标准通常是由未接受相关专业培训的众包工作者根据个人的品德标注举行确定；（3）AI 辅助的品德伦理标准评测，即让语言模型参与到评测过程中，辅助人类判断实质是否符合品德伦理；（4）鉴于混合模式（如专家定义 + 众包方式）的品德伦理标准评测，其相关的评测数据集则既包含了由专家定义的品德伦理标准构建的数据集，也包含了鉴于众包工作者的个人品德标准构建的数据集。

大模型的成见性评测主要关注其生成的实质是否会对某些社会群体产生不利影响或伤害。现有的研讨表明大模型可能会对某些群体持有刻板印象，或者产生输出贬低一定群体的信息等成见行为。该综述主要讨论了下游任意中的成见和大模型中的成见。下游任意涉及指代消解、机器翻译、自然语言推理、情感分析、关系抽取和隐式仇恨言论检测。而在大模型中的成见中，该综述主要引见了主流的专用于评价大模型的成见的评测数据集和评测法子。

大模型的毒性评测主要聚焦于评价其生成的实质中是否含有仇恨、侮辱、淫秽等有害信息。在毒性评测的框架下，该综述引见了使用大模型识别有害信息的相关工作，并详细引见了相应的评测基准。不仅如此，该综述还阐述了适用于评价大模型的毒性的评测数据集以及能够量化大型模型生成实质毒性的工具。

大模型的诚实性评测致力于检测模型生成的实质是否真实、准确，以及是否符合事实。该综述以评测数据集和评测法子为主线，详细引见了大模型的诚实性评测的相关工作。在引见真实性评测的数据集时，该综述根据数据集涉及的任意类型将数据集划分为了三类：（1）问答任意数据集，（2）对话任意数据集以及（3）摘要任意数据集。在探讨真实性评测的法子时，该综述对现有的真实性评测法子举行了梳理和归类，并将其总结为三类：（1）鉴于自然语言推理的评测法子，（2）鉴于问题生成和问答的法子，（3）鉴于大模型的法子。

安全评测

虽然大模型在许多任意中已经展现出媲美甚至超越人类的表现，但由其引发的安全问题也不容忽视，因此需要对大模型举行安全评测以确保其在各种应用场景中的安全使用。在安全评测中，该综述探讨了鲁棒性评测和危害评测两个方面，其对应的思想导图如图 5 所示。鲁棒性评测主要包括：（1）提示词鲁棒性，即通过在提示词中加入拼写错误、近义词等模拟用户输入的噪音来评价大模型的鲁棒性；（2）任意鲁棒性，即通过生成各种下游任意的对抗样本评价大模型的鲁棒性；（3）对齐鲁棒性，大模型通常会经过对齐训练以确保其生成的实质与人类的偏好和价值对齐，防止模型生成有害信息。然而，已有的研讨表明有些提示词能够绕过对齐训练的防护，触发大模型生成有害实质，这种法子也被称为越狱攻击法子。因此，对齐鲁棒性主要评测的是大模型在面临各种引导模型生成有害实质的越狱攻击时能否仍然生成与人类偏好和价值对齐的实质。

危害评测则主要集中于两个方面：（1）大模型的行为评测，即通过与大模型举行直接交互的方式，评价大模型是否存在追求权力和资源，产生自我保持等潜在危险行为或倾向；（2）将大模型视为智能体举行评测，即在一定的模拟环境中对大模型举行评测，如模拟游戏环境、模拟网上购物或网上冲浪等场景。与大模型的行为评测不同，此项评测更侧重于大模型的自主性以及其与环境和其它大模型之间的复杂交互。

大模型落地最后一公里：111页全面综述大模型评测

图 5 大模型安全评测

行业大模型评测

行业大模型指专门针对某个一定领域或行业举行训练和优化的大模型。与通用大模型不同，行业大模型一般都经过了一定领域数据的微调，因此其更加专注于某一一定领域的学问和应用，如法律、金融、医疗等。乘着通用大模型发展的东风，各种行业大模型也纷纷亮相。为深入了解行业大模型威力水平，发现行业模型潜在缺陷以便改进和优化，需要对行业大模型举行深入评测。该综述引见了生物 & 医疗、教育、法律、计算机和金融领域的行业大模型的评测，梳理了相应的评测基准、评测法子以及针对一定大模型的评测结果。其对应的思想导图如图 6 所示。

大模型落地最后一公里：111页全面综述大模型评测

图 6 行业大模型评测

（综合）评测组织

评测组织研讨如何将多个评测维度或子维度组合起来，以对大模型举行综合性评测。该综述对评测组织研讨举行了全面梳理，并将相关的综合性评测基准归类为两种：（1）由自然语言理解和自然语言生成任意组成的评测基准，如早期的 GLUE、SuperGLUE 和近期的 BIG-Bench 等；（2）由人类各学科考试题组成的学科威力评测基准，其目的是评价大模型的学问威力，如 MMLU、C-Eval、MMCU 和 M3KE 等。此外，该综述还总结了不同模型在学科威力评测基准上的表现，并分析和探讨了测试集样本所属的语言、模型的参数规模、指令微调和思想链等因素对模型效果的影响。同时，该综述还引见了评测平台、排行榜以及大模型竞技场，这些排行榜的评测数据集通常也由多个任意的评测数据集共同组成。大模型竞技场引入了 Elo 评分机制对大模型举行打分和排名，在计算 Elo 评分时，由人类对大模型生成的回复举行投票以选出质量高的回复。评测组织对应的思想导图如图 7 所示。

大模型落地最后一公里：111页全面综述大模型评测

图 7 评测组织

未来展望

该综述不仅梳理和引见了现有的大模型评测的研讨，还探讨了当前研讨中存在的瓶颈问题，并鉴于此，展望了大模型评测未来潜在方向：（1）危害评测，（2）智能体评测，（3）动态评测，以及（4）以优化大模型为目标的评测。

危害评测：现有的危害评测法子主要通过问答的方式对大模型举行评测，然而该法子难以全面评价大模型在一定场景或一定环境下的危害，无法深入揭示这些危害产生的内在原因。因此对于大模型的危害评测，需要更深入、更全面的评测法子。

智能体评测：现有的将大模型视为智能体举行评测的法子大多需要一个一定的环境，并且总是聚焦于智能体的威力评测。然而，这些法子往往缺乏专门用于评测智能体潜在危害的环境，因此可以进一步增加智能体所处环境的多样性，以便更全面地评价其威力和危害。

动态评测：现有的评测法子通常是静态评测，其测试样本总是长时间保持不变。然而，由于大模型的训练数据来源广泛且规模庞大，有些测试样本可能已经包含在其训练数据中。此外，大多数大模型往往不会详细透露其训练数据来源或公开其训练数据，这可能导致为了获得好的评测结果，静态评测的测试样本会被人为添加到模型的训练数据中。再者，由于学问每时每刻都在迭代更新，静态评测的数据中的学问有可能会过时，随着大模型的威力不断的增强，原有的静态评测数据的难度可能无法满足大模型的威力需求。这些因素都削弱了静态评测的公平性。因此，为了更加全面公正的对大模型举行评测，可以采用动态评测法子，持续更新测试样本，引入开放式问题，并探索评测新法子，如使用多个大模型通过辩论的方式举行评测。

以优化大模型为目标的评测：现有的评测法子主要使用具体的评分量化大模型在某些一定任意或某些一定维度的威力，虽然这些评分便于模型之间的比较和选择，但它们包含的信息难以指导模型的进一步优化。因此，需要以优化大模型为目标的评测法子，这种法子不仅给出模型的威力评分，同时也提供对应的威力分析和改进建议。