AI无法攻克的235道谜题!让o1、Gemini 2.0 Flash Thinking集体挂零

Scale AI 等提出的新基准再次暴露了大语言模型的弱点。 又又又一个超高难度的推理基准测试向 AI 发出了挑战! 大语言模型的进展伴随着评估基准的不断进步,各种难度、覆盖不同学科的评估基准被用来测试这些模型的各项能力。

Scale AI 等提出的新基准再次暴露了大语言模型的弱点。

又又又一个超高难度的推理基准测试向 AI 发出了挑战!

大语言模型的进展伴随着评估基准的不断进步,各种难度、覆盖不同学科的评估基准被用来测试这些模型的各项能力。

比如前几天,Center for AI Safety(AI 安全中心)与 Scale AI 联合打造了全新基准:Humanity's Last Exam,即「人类的最后考试」,简称 HLE。这个新基准对主流的推理模型提出了巨大挑战,结果显示 DeepSeek-R1、o1 的准确度都低于 10%。

如今,一个比「人类的最后考试」更苛刻的基准了,它就是同样由 Scale AI、Center for AI Safety 以及 MIT 的研究者联合推出的 ENIGMAEVAL。这是一个针对高难度问题的基准,其格式多种多样,涵盖了从解谜寻宝(puzzle hunts)抽取的文本和图像难题。

Puzzle hunts 是一种团队解谜竞赛,测试了参与者的逻辑推理、创造性思维、团队协作以及跨学科知识运用能力。它们通常包含一系列复杂的谜题,每个谜题的解答可能会涉及文字游戏、数学、密码学、图像分析、程序编写、文化常识等多个领域。 

对于 ENIGMAEVAL 基准,研究者使用了原始的多模态问题和高质量的人工转录版本,从而评估大语言模型的端到端能力以及它们的独立推理能力。这种设计选择使得研究者能够区分模型的性能限制源于它们的推理能力,而不是解析复杂文档或处理不同模态的能力。

image.png

  • 论文标题:ENIGMAEVAL: ABenchmark of LongMultimodal Reasoning Challenges

  • 论文地址:https://arxiv.org/pdf/2502.08859

  • 榜单地址:https://scale.com/leaderboard/enigma_eval

在 ENIGMAEVAL 基准上,研究者对现有多模态和推理基准上表现优异的前沿语言模型进行了评估。结果显示,包括 OpenAI o1 在内等 SOTA 模型在普通谜题(Normal)上的准确率最高仅为 7.0% 左右,在困难谜题(Hard)上的准确率则降至 0%,远远不及经验丰富的人类解谜者。

2025-02-17_101212.png

有趣的是,从转录的谜题到原始 PDF 版的谜题,模型性能可能会急剧下降,这表明了一些前沿模型仍然受限于 OCR 和解析能力。虽然研究者最开始假设原始谜题格式可能会造成额外的困难,但对模型成功案例的详细分析表明,它们已经针对复杂文档的处理进行了很好的优化。

image.png

研究者表示,ENIGMAEVAL 将与「人类的最后考试」一起构建全新的 LLM 基准,通过极具挑战性的任务揭露当前大语言模型的局限性。

正如一些网友评论所说,看起来 AI 离真正理解世界还有很长的路要走。

image.png

另外,该基准测试中没有将 DeepSeek R1 纳入在内,所以很好奇它的表现如何。

image.png

 ENIGMAEVAL 基准

ENIGMAEVAL 包含 1184 道谜题,每个谜题通常需要一群经验丰富的人花费数小时甚至数天才能解决。其有两种格式:

(1)原始 PDF 的 PNG 图像(如页面截图),用于测试模型端到端的性能;

(2)结构化的文本 - 图像表示,保留了语义关系和视觉元素,用于有针对性地评估模型多模态推理能力,同时减少干扰和预处理负担。

ENIGMAEVAL 来源如下(表 1),按照难度分组为 Normal (949 道题)和 Hard (235 道题)两大部分:

image.png

普通谜题示例(Normal):

image.png

image.png

困难谜题示例(Hard):

image.png

image.png

除了这些谜题,本文还收集了相应的解决方案文档,以 PDF 或 HTML 页面的形式提供。

实验 

本文在 ENIGMAEVAL 基准上测试了最先进的 LLM 的深度推理能力。

结果

模型在解答谜题方面的表现并不出色 。

所有前沿的视觉 - 语言模型在此次评估中的准确率都显著偏低,即便是领先的模型(o1)在常规难度部分也仅达到 7.0% 的准确率,在困难难度部分更是达到了 0%(见表 2)。

所有测试模型在困难难度部分完全失败(准确率为 0%),这强调了这些模型在面对更为复杂的谜题变体时所遭遇的重大挑战。

image.png

此外,本文还使用 o1 模型对其自身生成的答案进行审核,以检查是否存在抄袭或荒谬的推理链条,这是通过将前沿模型生成的逐步解决方案与官方谜题解析(附录 B.3)进行对比来实现的。每一个被 o1 标记的案例都经过了人工检查,结果发现审核模型幻觉般地提供了抄袭的证据,这表明实验所采用的模型是独立得出正确答案的。

相关资讯

估值飙至 138 亿美元,27 岁天才少年再获融资:数据标注会是下一个风口?

【新智元导读】Alexandr Wang 创办的 Scale AI 是一个为 AI 模型提供训练数据的数据标注平台,近期完成新一轮 10 亿美元融资,估值飙升至 138 亿美元。该公司表示将利用新资金生产丰富的前沿数据,为通向 AGI 铺平道路。Scale AI 为想要训练机器学习模型的公司提供数据标注服务,已从亚马逊和 Meta 等众多知名机构和企业投资者那里筹集了 10 亿美元的 F 轮融资。本轮融资由 Accel 领投,它之前还领投了 Scale AI 的 A 轮融资,并参与了后续的风险投资。这轮融资让 Sc

终于有人调查了小模型过拟合:三分之二都有数据污染,微软Phi-3、Mixtral 8x22B被点名

当前最火的大模型,竟然三分之二都存在过拟合问题?刚刚出炉的一项研究,让领域内的许多研究者有点意外。提高大型语言模型的推理能力是当前研究的最重要方向之一,而在这类任务中,近期发布的很多小模型看起来表现不错,比如微软 Phi-3、Mistral 8x22B 等等。但随后,研究者们指出当前大模型研究领域存在一个关键问题:很多研究未能正确地对现有 LLM 的能力进行基准测试。这是因为目前的大多数研究都采用 GSM8k、MATH、MBPP、HumanEval、SWEBench 等测试集作为基准。由于模型是基于从互联网抓取的大

Scaling Law瓶颈,Cursor编程为什么这么强?团队参与新研究掏出秘密武器

近段时间,AI 编程工具 Cursor 的风头可说是一时无两,其表现卓越、性能强大。近日,Cursor 一位重要研究者参与的一篇相关论文发布了,其中提出了一种方法,可通过搜索自然语言的规划来提升 Claude 3.5 Sonnet 等 LLM 的代码生成能力。具体来说,他们提出的方法名为 PlanSearch(规划搜索)。主导团队是 Scale AI,本文一作为 Scale AI 研究者 Evan Wang。二作 Federico Cassano 现已加入如今炙手可热的 AI 编程工具公司 Cursor。他曾参与创