AI在线 AI在线

谷歌 DeepMind 推 QuestBench 基准,评估 AI 模型的推理“补漏”能力

作者:故渊
2025-04-26 01:54
谷歌 DeepMind 团队推出 QuestBench 新基准,通过约束满足问题(CSPs)框架,评估模型在推理任务中识别和获取缺失信息的能力。

科技媒体 marktechpost 昨日(4 月 25 日)发布博文,报道称谷歌 DeepMind 团队推出 QuestBench 新基准,通过约束满足问题(CSPs)框架,评估模型在推理任务中识别和获取缺失信息的能力。

现实挑战与信息获取需求

大型语言模型(LLMs)在推理任务中广受关注,涵盖数学、逻辑、规划和编码等领域。然而,现实世界的应用场景常常充满不确定性。

用户在提出数学问题时常忽略重要细节,机器人等自主系统也必须在部分可观测的环境中工作。这种理想化完整信息设定与现实不完备问题之间的矛盾,迫使 LLMs 发展主动信息获取能力。

AI在线援引博文介绍,识别信息缺口并生成针对性地澄清问题,成为模型在模糊场景中提供准确解决方案的关键。

QuestBench:评估信息缺口的新框架

为应对信息获取挑战,研究者推出了 QuestBench 基准,专门评估 LLMs 在推理任务中识别缺失信息的能力。

该基准将问题形式化为约束满足问题(CSPs),聚焦于“1-sufficient CSPs”,即只需知道一个未知变量值即可解决目标变量的问题。

谷歌 DeepMind 推 QuestBench 基准,评估 AI 模型的推理“补漏”能力

QuestBench 覆盖逻辑推理(Logic-Q)、规划(Planning-Q)和小学数学(GSM-Q / GSME-Q)三个领域,按变量数量、约束数量、搜索深度和暴力搜索所需猜测次数四个难度轴分类,精准揭示模型的推理策略和性能瓶颈。

谷歌 DeepMind 推 QuestBench 基准,评估 AI 模型的推理“补漏”能力

谷歌 DeepMind 推 QuestBench 基准,评估 AI 模型的推理“补漏”能力

模型性能与未来改进空间

QuestBench 测试了包括 GPT-4o、Claude 3.5 Sonnet、Gemini 2.0 Flash Thinking Experimental 等领先模型,覆盖零样本、思维链和四样本设置。测试于 2024 年 6 月至 2025 年 3 月间进行,涉及 288 个 GSM-Q 和 151 个 GSME-Q 任务。

谷歌 DeepMind 推 QuestBench 基准,评估 AI 模型的推理“补漏”能力

结果表明,思维链提示普遍提升了模型性能,而 Gemini 2.0 Flash Thinking Experimental 在规划任务中表现最佳。开源模型在逻辑推理上具竞争力,但在复杂数学问题上表现不佳。

研究指出,当前模型在简单代数问题上表现尚可,但随着问题复杂性增加,性能显著下降,凸显了在信息缺口识别和澄清能力上的改进空间。

相关标签:

相关资讯

谷歌 DeepMind 发布 WebLI-100B:千亿级数据集解锁 AI 视觉语言模型的文化多样性

科技媒体 marktechpost 昨日(2 月 13 日)发布博文,报道称谷歌 DeepMind 团队发布了 WebLI-100B 千亿级数据集,并通过增强文化多样性和多语言性,以及减少子组之间的性能差异来提高包容性。
2/14/2025 2:48:02 PM
故渊

目标超级智能,前DeepMind科学家离职创业,获1.3亿刀融资

又有谷歌大模型核心成员出来创业了。 3 月 8 日,两名前谷歌 DeepMind 研究人员在社交平台 X 上宣布,成立一家名为 Reflection AI 的公司,旨在开发超级智能。 该公司一亮相,就已宣布获得 1.3 亿美元融资,估值更是高达 5.55 亿美元。
3/8/2025 3:43:00 PM
机器之心

「让通用机器人成为现实」,谷歌RT-2、PaLM-E作者离职创业,已获英伟达投资

又一位 DeepMind 高级研究科学家离开了谷歌,创建了自己的初创公司。 在近日召开的英伟达 GTC 的一个小组讨论会上,谷歌 DeepMind 高级研究科学家、RT-2 作者 Pete Florence 以 Generalist AI 联合创始人兼首席执行官的身份出席。 人工智能浪潮的来临让英伟达这家公司获得了巨大的财务成功,与此同时,NVentures 也成为一家格外活跃的风险投资公司。
3/20/2025 6:32:00 PM
机器之心
  • 1