“人类终极考试”基准测试发布：顶级 AI 系统表现惨淡，回答准确率均未超 10%

作者：远洋

2025-01-24 04:27

非营利组织“人工智能安全中心”（CAIS）与提供数据标注和 AI 开发服务的公司 Scale AI 联合推出了一个名为“人类终极考试”（Humanity's Last Exam）的新型基准测试，旨在评估前沿 AI 系统的综合能力。这一测试因其极高的难度引起关注。

非营利组织“人工智能安全中心”（CAIS）与提供数据标注和 AI 开发服务的公司 Scale AI 联合推出了一个名为“人类终极考试”（Humanity's Last Exam）的新型基准测试，旨在评估前沿 AI 系统的综合能力。这一测试因其极高的难度引起关注。

“人类终极考试”基准测试发布：顶级 AI 系统表现惨淡，回答准确率均未超 10%

据AI在线了解，该基准测试包含来自 50 个国家 / 地区 500 多个机构的近 1,000 名学科专家撰稿人提出问题，这些专家主要由教授、研究人员和研究生学位持有者组成，涵盖数学、人文学科和自然科学等多个领域。为增加测试的挑战性，题目形式多样，包括结合图表和图像的复杂题型。这种设计旨在全面考察 AI 系统在跨学科知识和多模态信息处理方面的能力。

在初步研究中，所有公开可用的旗舰 AI 系统在该测试中的回答准确率均未超过 10%。这一结果表明，尽管当前 AI 技术在特定领域已取得显著进展，但在应对复杂、综合性的问题时仍存在明显短板。

“人类终极考试”基准测试发布：顶级 AI 系统表现惨淡，回答准确率均未超 10%

“人类终极考试”基准测试发布：顶级 AI 系统表现惨淡，回答准确率均未超 10%

CAIS 和 Scale AI 表示，他们计划将这一基准测试向研究社区开放，以便研究人员能够“深入挖掘差异”并评估新开发的 AI 模型。

相关标签：

人工智能 AI 基准测试

相关资讯

UL Solutions 推出 AI 文本生成基准测试，支持英伟达、AMD、英特尔三家显卡

UL Solutions 推出 AI 文本生成基准测试，支持英伟达、AMD、英特尔三家显卡

该基准测试目前包括 4 种参数规模不一的模型，分别为 Phi-3.5-mini、Mistral-7B、Llama-3.1-8B 和 Llama-2-13B。

12/11/2024 2:17:40 PM

溯波（实习）

MLCommons 发布 PC AI 基准测试 MLPerf Client 首个公开版本 0.5

MLCommons 发布 PC AI 基准测试 MLPerf Client 首个公开版本 0.5

MLPerf Client 基准测试的诞生是 AMD、英特尔、微软、英伟达、高通和顶级 PC OEM 等利益相关方的合作成果。

12/12/2024 3:12:14 PM

溯波（实习）

OpenAI 推出 SWE-Lancer 基准测试:评估真实世界自由软件工程工作的模型性能

OpenAI 推出 SWE-Lancer 基准测试:评估真实世界自由软件工程工作的模型性能

在软件工程领域，随着挑战的不断演变，传统的基准测试方法显得力不从心。自由职业的软件工程工作复杂多变，远不止是孤立的编码任务。自由职业工程师需要处理整个代码库，集成多种系统，并满足复杂的客户需求。

2/18/2025 4:55:00 PM

AI在线

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片本地部署DeepSeek+DiFy平台构建智能体应用 OPPO 小布助手网页版上线，接入满血版 DeepSeek kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果深度学习 AI视频模态人形机器人 xAI 驾驶字节跳动文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型

顶部