豆包团队开源SuperGPQA：挑战285学科AI推理极限

2025-03-04 02:03

近日，字节跳动豆包大模型团队联合M-A-P开源社区发布SuperGPQA，一个覆盖285个研究生级学科、包含26，529道专业问题的知识推理基准测试。该数据集不仅涵盖数学、物理等主流学科，还首次将轻工业、农业、服务科学等长尾学科纳入评估体系，填补了现有基准测试在长尾知识领域的空白。 SuperGPQA已被用于揭示开源与闭源模型的性能差距，成为AI发展的重要工具。

近日，字节跳动豆包大模型团队联合M-A-P开源社区发布SuperGPQA，一个覆盖285个研究生级学科、包含26，529道专业问题的知识推理基准测试。

该数据集不仅涵盖数学、物理等主流学科，还首次将轻工业、农业、服务科学等长尾学科纳入评估体系，填补了现有基准测试在长尾知识领域的空白。SuperGPQA已被用于揭示开源与闭源模型的性能差距，成为AI发展的重要工具。

传统基准如MMLU和GPQA学科覆盖不足50个，长尾学科占比不到5%，且因数据来源单一（如维基百科）和众包标注不可靠，难以衡量模型在复杂场景中的推理能力。SuperGPQA通过专家-LLM协同机制，从权威来源筛选问题，历时半年构建而成。其题目平均提供9.67个选项，42.33%需数学计算或形式推理，兼具广度与深度。实验显示，最优模型DeepSeek-R1准确率仅61.82%，表明当前大语言模型在多样知识领域仍有提升空间。

SuperGPQA采用三阶段流程提升质量:专家筛选原始问题、规范化转录、多层质量检验（规则过滤、LLM检测、专家复审）。评测结果表明，指令微调显著提升性能，如DeepSeek-V3得分超基础版，但开源模型在困难题目上仍落后闭源方案。

论文链接:https://arxiv.org/pdf/2502.14739

数据链接:https://huggingface.co/datasets/m-a-p/SuperGPQA

代码链接:https://github.com/SuperGPQA/SuperGPQA

为国打造世界一流的芯片人才，清华大学成立集成电路学院

刚刚，清华大学集成电路学院揭牌成立，拉开中国培养一流芯片人才的序幕。

4/22/2021 4:39:00 PM

机器之心

CS上榜超百，中国内地935人，2021全球「高被引科学家」名单揭晓

备受期待的科睿唯安「高被引科学家」名单公布。其中，就中国内地的高校来说，清华大学入选 58 位，中国科学技术大学入选 41 位，浙江大学入选 29 位，北京大学入选 28 位。

11/17/2021 5:33:00 PM

机器之心

今年 9 月起，复旦大学 2024-2025 学年将推出至少 100 门“AI 大课”

IT之家从复旦大学获悉，从今年秋季学期开始，复旦大学将在 2024-2025 学年推出至少 100 门 AI 领域课程（官方称为“AI 大课”），加快科学智能创新生态构建，打开 AI 融合创新人才培养新局面。复旦大学方面表示，通过一学年努力到明年秋季学期开学，复旦将实现 AI“三个渗透率 100%”——AI 课程覆盖全体本研学生，AI 教育覆盖全部一级学科，AI 素养能力要求覆盖全部专业。复旦 AI 大课将打造“AI-BEST”课程体系，基于人工智能发展特点及全校“普及圈”“核心圈”“进阶圈”的 AI 和

6/5/2024 11:40:50 AM

清源

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片 OPPO 小布助手网页版上线，接入满血版 DeepSeek 本地部署DeepSeek+DiFy平台构建智能体应用 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度人形机器人苹果深度学习 AI视频模态字节跳动 xAI 驾驶文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型

顶部

豆包团队开源SuperGPQA：挑战285学科AI推理极限

相关资讯

为国打造世界一流的芯片人才，清华大学成立集成电路学院

CS上榜超百，中国内地935人，2021全球「高被引科学家」名单揭晓

今年 9 月起，复旦大学 2024-2025 学年将推出至少 100 门“AI 大课”