人工智能(AI)的能力正在飞速发展,如何准确衡量其“智能”程度一直是行业关注的焦点。然而,正如衡量人类智力一样,AI智能的测评也并非易事,现有的测试和基准往往只能提供近似的评估。近年来,随着AI模型日益复杂,传统基准的局限性日益凸显,促使行业积极探索更全面、更能反映实际应用能力的新型评估体系。
传统基准的局限性:高分≠高能
长期以来,生成式AI社区依赖诸如MMLU(大规模多任务语言理解)等基准来评估模型能力。这类基准通常采用多项选择题形式,覆盖多个学术领域,便于进行直接比较。然而,这种形式被认为难以真正捕捉AI的智能能力。例如,一些模型在MMLU上取得了相似的分数,但在实际应用中的表现却存在显著差异,这表明纸面上的高分并不能完全代表真实的能力。
此外,即使是像大学入学考试这样的基准,其高分也并不意味着考生拥有相同的智力水平,或者智力已经达到了极限,这进一步说明了基准只是能力的近似衡量,而非精确度量。更令人担忧的是,一些先进的模型在看似简单的任务上也会出现“低级错误”,例如无法正确数出单词中的特定字母,或者在比较小数大小时出错。这些案例暴露了传统基准驱动的进步与AI在现实世界中的可靠性之间的脱节。
新基准亮相:聚焦通用推理与实际应用
面对传统基准的不足,AI行业正在积极探索新的评估框架。近期发布的ARC-AGI基准旨在推动模型向通用推理和创造性问题解决能力发展,受到了业界的欢迎。另一项引人注目的新基准是“人类最后考试”,它包含了3000道同行评审的多步骤问题,涵盖多个学科,试图在专家级推理上挑战AI系统。早期结果显示,OpenAI的模型在该测试发布一个月内就取得了26.6%的成绩,展现了AI的快速进步。
然而,与传统基准类似,“人类最后考试”主要在孤立的环境中评估知识和推理能力,而忽略了实际应用中日益重要的工具使用能力。GPT-4在配备工具的情况下,在更复杂的GAIA基准上仅取得了约15%的成绩,这进一步印证了传统基准与实际能力之间的差距。
GAIA基准:衡量AI现实应用能力的新标准
为了弥补传统基准的缺陷,行业推出了更贴近现实应用的GAIA基准。GAIA由Meta-FAIR、Meta-GenAI、HuggingFace和AutoGPT团队合作创建,包含466个精心设计的问题,分为三个难度级别。这些问题全面测试了AI的网络浏览、多模态理解、代码执行、文件处理和复杂推理等关键能力,这些都是AI在现实商业应用中不可或缺的。
GAIA基准的问题设计模拟了实际业务问题的复杂性。Level1的问题需要大约5个步骤和一个工具来解决,Level2需要5到10个步骤和多个工具,而Level3的问题则可能需要多达50个离散步骤和任意数量的工具。这种结构更真实地反映了现实世界中解决问题往往需要多个步骤和工具协同工作的特点。
GAIA初步成果:强调灵活性与专业化
GAIA基准的早期结果显示,一个注重灵活性的AI模型取得了75%的准确率,超越了微软的Magnetic-1(38%)和谷歌的Langfun Agent(49%)。该模型的成功归功于其采用了结合音频-视觉理解和推理的专用模型,并以Anthropic的Sonnet3.5作为主要模型。
GAIA的出现反映了AI评估领域的一个更广泛的转变:我们正从评估独立的软件即服务(SaaS)应用转向评估能够协调多个工具和工作流程的AI智能体。随着企业越来越依赖AI系统处理复杂的、多步骤的任务,像GAIA这样的基准能够提供比传统多项选择题更具实际意义的能力衡量。
基准入口:https://huggingface.co/gaia-benchmark