AI“智商”大考变革！全新GAIA基准超越 ARC-AGI

2025-04-14 10:01

人工智能（AI）的能力正在飞速发展，如何准确衡量其“智能”程度一直是行业关注的焦点。然而，正如衡量人类智力一样，AI智能的测评也并非易事，现有的测试和基准往往只能提供近似的评估。近年来，随着AI模型日益复杂，传统基准的局限性日益凸显，促使行业积极探索更全面、更能反映实际应用能力的新型评估体系。

传统基准的局限性:高分≠高能

长期以来，生成式AI社区依赖诸如MMLU（大规模多任务语言理解）等基准来评估模型能力。这类基准通常采用多项选择题形式，覆盖多个学术领域，便于进行直接比较。然而，这种形式被认为难以真正捕捉AI的智能能力。例如，一些模型在MMLU上取得了相似的分数，但在实际应用中的表现却存在显著差异，这表明纸面上的高分并不能完全代表真实的能力。

此外，即使是像大学入学考试这样的基准，其高分也并不意味着考生拥有相同的智力水平，或者智力已经达到了极限，这进一步说明了基准只是能力的近似衡量，而非精确度量。更令人担忧的是，一些先进的模型在看似简单的任务上也会出现“低级错误”，例如无法正确数出单词中的特定字母，或者在比较小数大小时出错。这些案例暴露了传统基准驱动的进步与AI在现实世界中的可靠性之间的脱节。

新基准亮相:聚焦通用推理与实际应用

面对传统基准的不足，AI行业正在积极探索新的评估框架。近期发布的ARC-AGI基准旨在推动模型向通用推理和创造性问题解决能力发展，受到了业界的欢迎。另一项引人注目的新基准是“人类最后考试”，它包含了3000道同行评审的多步骤问题，涵盖多个学科，试图在专家级推理上挑战AI系统。早期结果显示，OpenAI的模型在该测试发布一个月内就取得了26.6%的成绩，展现了AI的快速进步。

然而，与传统基准类似，“人类最后考试”主要在孤立的环境中评估知识和推理能力，而忽略了实际应用中日益重要的工具使用能力。GPT-4在配备工具的情况下，在更复杂的GAIA基准上仅取得了约15%的成绩，这进一步印证了传统基准与实际能力之间的差距。

GAIA基准:衡量AI现实应用能力的新标准

为了弥补传统基准的缺陷，行业推出了更贴近现实应用的GAIA基准。GAIA由Meta-FAIR、Meta-GenAI、HuggingFace和AutoGPT团队合作创建，包含466个精心设计的问题，分为三个难度级别。这些问题全面测试了AI的网络浏览、多模态理解、代码执行、文件处理和复杂推理等关键能力，这些都是AI在现实商业应用中不可或缺的。

GAIA基准的问题设计模拟了实际业务问题的复杂性。Level1的问题需要大约5个步骤和一个工具来解决，Level2需要5到10个步骤和多个工具，而Level3的问题则可能需要多达50个离散步骤和任意数量的工具。这种结构更真实地反映了现实世界中解决问题往往需要多个步骤和工具协同工作的特点。

GAIA初步成果:强调灵活性与专业化

GAIA基准的早期结果显示，一个注重灵活性的AI模型取得了75%的准确率，超越了微软的Magnetic-1（38%）和谷歌的Langfun Agent(49%)。该模型的成功归功于其采用了结合音频-视觉理解和推理的专用模型，并以Anthropic的Sonnet3.5作为主要模型。

GAIA的出现反映了AI评估领域的一个更广泛的转变:我们正从评估独立的软件即服务（SaaS）应用转向评估能够协调多个工具和工作流程的AI智能体。随着企业越来越依赖AI系统处理复杂的、多步骤的任务，像GAIA这样的基准能够提供比传统多项选择题更具实际意义的能力衡量。

基准入口：https://huggingface.co/gaia-benchmark

如何使用基于AI的 Suno创作自己的音乐？

译者 | 布加迪审校 | 重楼Suno将使用其AI技能根据你对音乐的特定流派和主题的描述来创作歌曲。你可能已经使用生成式AI来创建文本、图像甚至视频，但有没有用它来创作自己的音乐呢？几种不同的文本转音乐工具可以充当虚拟作曲家，不过值得一试的此类工具是Suno。

1/10/2025 7:53:13 AM

布加迪

Omdia：预计中国生成式 AI 软件市场五年增超 4 倍，2029 年达 98 亿美元

市场调研机构Omdia今日发布报告称，经过两年的快速发展，2024 年中国的生成式人工智能（GenAI）软件收入已达到 18 亿美元（IT之家备注：当前约 131.18 亿元人民币）。

2/7/2025 12:43:44 PM

清源

Meta首席AI科学家预测五年内将出现新的AI架构范式，开启 “机器人十年”

在日前的达沃斯 “技术辩论” 会上，Meta 的首席 AI 科学家 Yann LeCun 对未来五年的人工智能发展做出了激动人心的预测。他认为，现有的人工智能系统将在未来3到5年内面临巨大的变革，将出现一种 “新的 AI 架构范式”，超越当今普遍使用的生成式 AI 和大型语言模型（LLM）的能力。 LeCun 指出，当前的 LLM 虽然在语言处理上表现良好，但在真正智能的行为上却存在显著局限性。

1/24/2025 9:43:00 AM

AI在线

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用全日程揭晓！ICLR 2025论文分享会我们北京见 5分钟直出46页论文！谷歌Deep Research完爆OpenAI，最强Gemini 2.5加持「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o ChatGPT重大更新，能翻出所有历史对话，网友被AI聊破防了击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D AI设计 Anthropic 机器学习 GPU 开发者场景华为预测伟达 Transformer 百度深度学习苹果模态 AI视频驾驶文本人形机器人 xAI 搜索大语言模型 Copilot 字节跳动神器推荐 LLaMA 具身智能 Claude 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练

顶部