豆包团队开源SuperGPQA:挑战285学科AI推理极限

近日,字节跳动豆包大模型团队联合M-A-P开源社区发布SuperGPQA,一个覆盖285个研究生级学科、包含26,529道专业问题的知识推理基准测试。 该数据集不仅涵盖数学、物理等主流学科,还首次将轻工业、农业、服务科学等长尾学科纳入评估体系,填补了现有基准测试在长尾知识领域的空白。 SuperGPQA已被用于揭示开源与闭源模型的性能差距,成为AI发展的重要工具。

近日,字节跳动豆包大模型团队联合M-A-P开源社区发布SuperGPQA,一个覆盖285个研究生级学科、包含26,529道专业问题的知识推理基准测试。

QQ20250304-140137.pngQQ20250304-140137.png

该数据集不仅涵盖数学、物理等主流学科,还首次将轻工业、农业、服务科学等长尾学科纳入评估体系,填补了现有基准测试在长尾知识领域的空白。SuperGPQA已被用于揭示开源与闭源模型的性能差距,成为AI发展的重要工具。

传统基准如MMLU和GPQA学科覆盖不足50个,长尾学科占比不到5%,且因数据来源单一(如维基百科)和众包标注不可靠,难以衡量模型在复杂场景中的推理能力。SuperGPQA通过专家-LLM协同机制,从权威来源筛选问题,历时半年构建而成。其题目平均提供9.67个选项,42.33%需数学计算或形式推理,兼具广度与深度。实验显示,最优模型DeepSeek-R1准确率仅61.82%,表明当前大语言模型在多样知识领域仍有提升空间。

QQ20250304-140147.png

SuperGPQA采用三阶段流程提升质量:专家筛选原始问题、规范化转录、多层质量检验(规则过滤、LLM检测、专家复审)。评测结果表明,指令微调显著提升性能,如DeepSeek-V3得分超基础版,但开源模型在困难题目上仍落后闭源方案。

论文链接:https://arxiv.org/pdf/2502.14739

数据链接:https://huggingface.co/datasets/m-a-p/SuperGPQA

代码链接:https://github.com/SuperGPQA/SuperGPQA

相关资讯

为国打造世界一流的芯片人才,清华大学成立集成电路学院

刚刚,清华大学集成电路学院揭牌成立,拉开中国培养一流芯片人才的序幕。

CS上榜超百,中国内地935人,2021全球「高被引科学家」名单揭晓

备受期待的科睿唯安「高被引科学家」名单公布。其中,就中国内地的高校来说,清华大学入选 58 位,中国科学技术大学入选 41 位,浙江大学入选 29 位,北京大学入选 28 位。

今年 9 月起,复旦大学 2024-2025 学年将推出至少 100 门“AI 大课”

IT之家从复旦大学获悉,从今年秋季学期开始,复旦大学将在 2024-2025 学年推出至少 100 门 AI 领域课程(官方称为“AI 大课”),加快科学智能创新生态构建,打开 AI 融合创新人才培养新局面。复旦大学方面表示,通过一学年努力到明年秋季学期开学,复旦将实现 AI“三个渗透率 100%”——AI 课程覆盖全体本研学生,AI 教育覆盖全部一级学科,AI 素养能力要求覆盖全部专业。复旦 AI 大课将打造“AI-BEST”课程体系,基于人工智能发展特点及全校“普及圈”“核心圈”“进阶圈”的 AI 和