最真实大模型编程评估！字节开源FullStack Bench，首次全覆盖超11类现实编程场景

2024-12-05 03:46

代码大模型越来越卷，评估AI编程水平的“考卷”也被迫升级。 12月5日，字节豆包大模型团队开源最新代码大模型评估基准FullStack Bench，在业界首次囊括编程全栈技术中超11类真实场景，覆盖16种编程语言，包含3374个问题，相比此前基准，可以更有效地评估大模型在现实世界中的代码开发能力。代码评估基准是衡量大模型编程能力的标准工具，也是推动模型优化的关键驱动力。

代码大模型越来越卷，评估AI编程水平的“考卷”也被迫升级。12月5日，字节豆包大模型团队开源最新代码大模型评估基准FullStack Bench，在业界首次囊括编程全栈技术中超11类真实场景，覆盖16种编程语言，包含3374个问题，相比此前基准，可以更有效地评估大模型在现实世界中的代码开发能力。

代码评估基准是衡量大模型编程能力的标准工具，也是推动模型优化的关键驱动力。不过，当前的代码评估基准覆盖的应用类型和编程语言较为有限，难以反映真实世界中代码开发场景的多样性和复杂性。

比如，主流代码评测集HumanEval和MBPP中近80%数据只聚焦基础编程和高级编程问题；DS-1000中95%数据都集中于数据分析和机器学习任务，且仅对Python语言进行评测；xCodeEval虽覆盖多项任务，但基本局限于高级编程和数学领域。

图表, 条形图

描述已自动生成

FullStack Bench数据覆盖超11种应用领域，远超当前主流代码评估基准

因此，字节豆包大模型团队与M-A-P开源社区联合提出FullStack Bench，一个专注于全栈编程和多语言编程的代码评估数据集。为囊括在真实全栈开发中涉及的各类应用场景，研究团队从全球最大的程序员技术问答社区Stack Overflow中随机抽取了50万个问题进行分析，筛选出占总问题数前88.1%的应用领域，并对其分布做了适当调整来保证每个领域的鲁棒性，最终形成了FullStack Bench关注的超过11种应用场景及分布比例。

FullStack Bench包含3374个问题，每个问题均包括题目描述、参考解决方案及单元测试用例，总计15168个单元测试。为保证评估准确性，问题内容均由相关领域的编程专家设计，并经AI和人工验证进行质量复核。在初始数据集构建后，团队根据主流代码大模型测试结果，按问题难度、模糊性和可解性对数据质量进行了交叉评估和进一步完善。

表格

描述已自动生成

FullStack Bench数据集构成情况

为方便开发者对大模型代码能力进行系统性测试，豆包大模型团队还开源了一款高效的代码沙盒执行工具——SandboxFusion，用于评估来自不同语言的不同编程任务。除了FullStack Bench，SandboxFusion还兼容超过10种广泛使用的代码评估数据集，支持23种编程语言。开发者在单服务器上即可轻松部署SandboxFusion，也可直接在GitHub上进行体验。

图形用户界面

描述已自动生成

发布评测基准及沙盒的同时，字节代码大模型也首次曝光。研究中，豆包大模型团队对全球20余款代码大模型及语言大模型的编程表现进行了评测（详见论文），其中包括未披露过的豆包代码大模型Doubao-Coder。

近半年，字节在代码大模型领域进展迅速，今年6月字节发布了由自研代码基座模型支撑的AI编程助手豆包MarsCode，目前每月为用户贡献百万量级代码。

论文地址：https://arxiv.org/pdf/2412.00535v2
数据集开源地址：https://huggingface.co/datasets/ByteDance/FullStackBench
沙盒开源地址：https://github.com/bytedance/SandboxFusion
沙盒体验入口：https://bytedance.github.io/SandboxFusion/playground/datasets

Nature盘点：从Fortran、arXiv到AlexNet，这些代码改变了科学界

从 Fortran 编译器到 arXiv 预印本库、AlexNet，这些计算机代码和平台改变了科学界。2019 年，「事件视界望远镜」团队拍下了第一张黑洞照片。这张照片并非传统意义上的照片，而是计算得来的——将美国、墨西哥、智利、西班牙和南极多台射电望远镜捕捉到的数据进行数学转换。该团队公开了所用代码，使科学社区可以看到，并基于此做进一步的探索。而这逐渐成为一种普遍模式。从天文学到动物学，每一个伟大的现代科学发现背后都有计算机的身影。斯坦福大学计算生物学家、2013 年诺贝尔化学奖获得主 Michael Levit

1/21/2021 2:16:00 PM

机器之心

可用 AI 写 Java 程序，甲骨文推出 Oracle Code Assist 编程助理

继微软、OpenAI、谷歌等厂商后，甲骨文加入了开发 AI 编程助理的阵营，该公司最近推出了名为 Oracle Code Assist 的工具，旨在帮助用户开发 Java 程序。据介绍，Oracle Code Assist 以甲骨文的云端 Oracle Cloud Infrastructure（OCI）模型为基础，旨在优化 Java、SQL 程序和 OCI 平台上的应用开发流程。甲骨文强调，相关 AI 编程助理“经过多种软件库的训练”，并通过其自家的软件微调而成，用户可以使用相关模型配合甲骨文软件实现“高效编程”。

5/13/2024 9:34:39 AM

漾仔

内置10000+Github 热门代码库，百度正式发布Comate代码知识增强2.0

5月18日，iTechClub华北区第七届互联网技术精英高峰论坛举行，百度工程效能部总监臧志带来“迈向人机协同的AI原生研发新范式”主题演讲。他重磅发布了百度智能代码助手Comate最新成果——Comate代码知识增强2.0，这是国内首个支持实时检索的智能代码助手，内置超过10000个Github 热门代码库，这为全球开发者带来了前所未有的编程体验。作为本次大会的亮点之一，Comate代码知识增强2.0受到与会者极大关注。智能代码助手Comate是基于百度文心大模型打造的一款代码智能补全和推荐工具。它通过深度学习和

5/22/2024 11:02:00 AM

新闻助手

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！全日程揭晓！ICLR 2025论文分享会我们北京见 5分钟直出46页论文！谷歌Deep Research完爆OpenAI，最强Gemini 2.5加持 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o 击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！ ChatGPT重大更新，能翻出所有历史对话，网友被AI聊破防了

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度深度学习苹果 AI视频模态驾驶文本人形机器人 xAI 搜索大语言模型 Copilot Claude 字节跳动具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练

顶部

最真实大模型编程评估！字节开源FullStack Bench，首次全覆盖超11类现实编程场景

相关资讯

Nature盘点：从Fortran、arXiv到AlexNet，这些代码改变了科学界

可用 AI 写 Java 程序，甲骨文推出 Oracle Code Assist 编程助理

内置10000+Github 热门代码库，百度正式发布Comate代码知识增强2.0