在大模型(LLM)盛行的当下,评价 AI 体系成为了重要的一环,在评价过程中都会碰到哪些困难,Anthropic 的一篇文章为我们揭开了答案。
现阶段,大多数围绕人工智能 (AI)对社会影响的讨论可归结为 AI 体系的某些属性,例如真实性、公平性、滥用的可能性等。但现在面临的问题是,许多研究人员并没有完全意识到建立稳健可靠的模型评价是多么困难。当今许多现有的评价套件在各个方面的表现都很有限。
AI 初创公司 Anthropic 近日在其官方网站上贴出了一篇文章《评价 AI 体系所面临的应战》。文中写道,他们花了很长的时间来构建对 AI 体系的评价,从而更好地理解 AI 体系。
文章地址:https://www.anthropic.com/index/evaluating-ai-systems
本文主要从以下几个方面展开讨论:
多项挑选评价(Multiple choice evaluations);
利用第三方评价框架,如 BIG-bench 和 HELM;
让工作人员来权衡模型是有益的还是有害的;
让领域专家对相关威胁从事红队分析(red team);
利用生成式 AI 来开发评价办法;
与非营利组织合作,审核模型是否具有危害。
多项挑选评价面临的应战
多项挑选评价看似简单,其实不然。本文讨论了模型在 MMLU(Measuring Multitask Language Understanding)和 BBQ(Bias Benchmark for QA)基准上的应战。
MMLU 数据集
MMLU 是一个包含 57 个多选问答任务的英文评测数据集,涵盖数学、历史、法律等,是目前主流的 LLM 评测数据集。准确率越高,意味着模型的能力越强。但本文发现利用 MMLU 存在四个应战:
1. 由于 MMLU 被广泛利用,因而就不可避免的碰到这类情况,模型在训练过程中更容易将 MMLU 数据纳入进来。这和学生在考试前看到题目是一样的 —— 这是作弊。
2. 对简单的体例变化敏感,例如将选项从 (A) 更改为 (1),或者在选项和答案之间添加额外的空格,这些做法都可能导致评价准确率约有 5% 的浮动。
3. 一些开发人员有针对性的来提高 MMLU 分数,例如少样本学习或思维链推理。因此,在比较各个实验室的 MMLU 分数时必须非常小心。
4.MMLU 可能没有经过仔细的校对 —— 有研究者在 MMLU 中发现了标签错误或无法回答的例子。
由于上述问题,因而在从事这类简单且标准化的评价时,有必要事先做出判断和思考。本文表明,在利用 MMLU 中碰到的应战通常也适用于其他类似的多项挑选评价。
BBQ
多项挑选评价还可以权衡一些 AI 危害。具体而言,Anthropic 的研究者为了在自家模型 Claude 中权衡这些危害,他们利用了 BBQ 基准(用于评价模型对人群成见的常用基准)。在将此基准与几个类似的评价从事比较后,本文才确信 BBQ 提供了一个很好的权衡社会成见的办法。这项工作花了他们几个月的时间。
本文表示,实施 BBQ 比预期要困难得多。首先是找不到一个可用的 BBQ 开源实现,Anthropic 最好的工程师花了一个星期的时间来执行和尝试评价。与 MMLU 中按照准确率评价不同,BBQ 中的 bias 得分必要细微差别和经验来定义、计算和解释。
BBQ bias 得分范围从 – 1 到 1,其中 1 表示有明显的刻板成见,0 表示没有成见,-1 表示有明显的反刻板成见。在实现 BBQ 之后,本文发现一些模型 bias 得分为 0,这一结果也让研究者感到乐观,表明他们在减少有成见的模型输出方面取得了进展。
第三方评价框架
最近,第三方一直在积极开发评价套件。到目前为止,Anthropic 已经参与了其中的两个项目:BIG-bench 和斯坦福大学的 HELM(Holistic Evaluation of Language Models)。尽管第三方评价看起来很实用,但这两个项目都面临新的应战。
BIG-bench
BIG-bench 包含 204 项评价,由 450 多名研究者合作完成,涵盖从科学到社会推理的一系列主题。Anthropic 表示他们在利用这个基准时碰到了一些应战:为了安装 BIG-bench,他们耗费了大量的时间。BIG-bench 不像 MMLU 那样即插即用 —— 它甚至比利用 BBQ 更多的努力来实施。
BIG-bench 无法有效的扩展,想要全部完成 204 项评价具有很大的应战性。因而必要重新编写,以便与利用的基础设施很好地配合,工作量巨大。
此外,在实施过程中,本文发现评价中存在一些 bug,利用起来非常不便利,因此 Anthropic 的研究人员在这次实验后放弃了它。
HELM:自上而下地策划一组评价
BIG-bench 是一项「自下而上」的工作,任何人都可以提交任何任务,然后由一组专家组织者从事有限的审查。而 HELM 则采用「自上而下」的办法,由专家决定用什么任务评价模型。
具体来说,HELM 在推理场景、含虚假信息场景等多个场景中评价模型,采用准确性、稳健性、公平性等标准指标。Anthropic 为 HELM 开发人员提供 API 访问权限,以便在其模型上运行基准尝试。
相比于 BIG-bench,HELM 有两个优势:1)它不必要从事大量的工程工作,2)可以依靠专家来挑选和解释特定的高质量评价。
然而,HELM 也带来了一些应战。适用于评价其他模型的办法不一定适用于 Anthropic 的模型,反之亦然。例如,Anthropic 的 Claude 系列模型经过训练,遵循特定的文本体例,称为 Human/Assistant 体例。Anthropic 内部评价其模型时会遵循这类特定体例。如果不遵循这类体例,Claude 有时就会给出不寻常的回答,从而使标准评价指标的结果不太可信。
此外,HELM 必要很长的时间才能完成,评价新模型可能必要几个月的时间,并且必要与外部各方从事协调和沟通。
人工智能体系是为了与人从事开放式动态交互而设计的,那么如何对模型从事更接近现实应用的评价?
众包人员从事 A/B 尝试
目前,领域内主要(但不完全)依赖一种基本类型的人类评价 —— 在众包平台上从事 A/B 尝试,人们在其中与两个模型从事开放式对话,并从模型 A 或 B 中挑选响应更有帮助或更有害,根据模型的实用性或有害性对模型从事排名。这类评价办法的优点是与现实环境相对应,并允许对不同的模型从事排名。
然而,这类评价办法有一些局限性,实验运行起来既昂贵又耗时。
首先,这类办法必要与第三方众包平台合作并为其付费,为模型构建自定义 Web 界面,为 A/B 尝试人员设计详细的说明,还要分析和存储结果数据,并解决雇用众包人员带来的道德应战。
在有害性尝试情况下,实验还存在使人们接触有害输出的风险。人类评价的结果可能还会因人类评价者的特征存在很大差异,包括人类评价者的创造力水平、动机以及识别所尝试体系潜在缺陷的能力。
此外,实用和有害之间存在固有的张力。体系可以通过提供无用的响应(例如「抱歉,我无法帮助您」)来降低有害性。
实用与有害之间的正确平衡是什么?什么指标数值表明模型足够实用且有害?诸多问题必要领域内研究者做更多工作来找到答案。
了解更多内容,请参考原文章。
原文链接:https://www.anthropic.com/index/evaluating-ai-systems