AI在线 AI在线

AWS 发布 SWE-PolyBench:评估 AI 编程助手的新开源基准

作者:AI在线
2025-04-24 10:01
近日,AWS AI Labs 推出了 SWE-PolyBench,这是一个多语言的开源基准,旨在为 AI 编程助手的评估提供一个更全面的框架。 随着大规模语言模型(LLM)的进步,AI 编程助手的开发已经取得了显著的进展,这些助手能够生成、修改和理解软件代码。 然而,目前的评估方法仍然存在诸多局限,许多基准测试往往仅集中在 Python 等单一语言,无法全面反映真实代码库的结构和语义多样性。

近日,AWS AI Labs 推出了 SWE-PolyBench,这是一个多语言的开源基准,旨在为 AI 编程助手的评估提供一个更全面的框架。随着大规模语言模型(LLM)的进步,AI 编程助手的开发已经取得了显著的进展,这些助手能够生成、修改和理解软件代码。然而,目前的评估方法仍然存在诸多局限,许多基准测试往往仅集中在 Python 等单一语言,无法全面反映真实代码库的结构和语义多样性。

QQ_1745456662909.png

SWE-PolyBench 通过涵盖21个 GitHub 代码库,支持 Java、JavaScript、TypeScript 和 Python 四种流行编程语言,提供了2110个任务,包括错误修复、功能实现和代码重构。与以往的基准测试不同,SWE-PolyBench 使用了真实的拉取请求(PR),这些 PR 能够解决实际问题,并配备了相关的测试用例,从而实现可验证的评估。此外,还发布了一个更小的分层子集 ——SWE-PolyBench500,以支持快速实验,同时保留任务和语言的多样性。

QQ_1745456674846.png

在技术结构和评估指标方面,SWE-PolyBench 采用了基于执行的评估流程。每个任务都包含一个代码库快照和一个源于 GitHub 问题的任务描述。系统会在针对特定语言生态系统(如 Java 的 Maven 或 JavaScript/TypeScript 的 npm)配置的容器化测试环境中应用相关的真实补丁。评估结果使用两种类型的单元测试进行测量:从失败到通过(F2P)和从通过到通过(P2P)。

QQ_1745456685896.png

为了对编程助手进行更细致的评估,SWE-PolyBench 引入了基于具体语法树(CST)的指标,这些指标包括文件级和节点级检索分数,评估编程助手在查找和修改代码库中相关部分的能力。此次评估适配了三个开源编程助手 ——Aider、SWE-Agent 和 Agentless,它们均使用了 Anthropic 的 Claude3.5模型,并进行了调整以满足基准的多语言和代码库要求。

评估结果显示,不同编程语言和任务类型的表现差异明显。例如,Python 任务的通过率最高可达24.1%,而 TypeScript 则仅为4.7%。在任务复杂度方面,单一功能或类的修改任务成功率高达40%,但涉及多文件变更的任务则显著下降。

github:https://github.com/amazon-science/SWE-PolyBench

划重点:  

🌟 AWS 推出 SWE-PolyBench,为 AI 编程助手提供全面的评估框架。  

🔧 基准涵盖21个 GitHub 代码库,支持 Java、JavaScript、TypeScript 和 Python 四种语言。  

📈 评估显示不同语言和任务的表现差异,Python 任务成功率最高。

相关资讯

​OpenAI 最新研究揭示:最先进的 AI 仍难以解决编码问题

近日,OpenAI 的研究人员在一篇新发布的论文中坦言,尽管目前的 AI 技术已经相当先进,但这些模型依然无法与人类程序员相媲美。 OpenAI 首席执行官山姆・阿尔特曼曾表示,预计到今年底,AI 将能够战胜 “低级” 软件工程师,但研究结果却显示,这些 AI 模型仍然面临重大挑战。 图源备注:图片由AI生成,图片授权服务商Midjourney在研究中,OpenAI 团队使用了一种名为 SWE-Lancer 的新基准测试,评估了从自由职业网站 Upwork 上提取的1400多项软件工程任务的表现。
2/24/2025 9:09:00 AM
AI在线

​OpenAI 推出 SWE-Lancer 基准测试:评估真实世界自由软件工程工作的模型性能

在软件工程领域,随着挑战的不断演变,传统的基准测试方法显得力不从心。 自由职业的软件工程工作复杂多变,远不止是孤立的编码任务。 自由职业工程师需要处理整个代码库,集成多种系统,并满足复杂的客户需求。
2/18/2025 4:55:00 PM
AI在线

Claude挣钱强于o1!OpenAI开源百万美元编码基准,检验大模型钞能力

昨天,AI 圈可以说非常热闹。 中午,马斯克 xAI 发布了地表最强旗舰大模型 Grok-3;下午,DeepSeek 梁文锋亲自挂名的论文公开了全新注意力架构 NSA。 这下子,OpenAI 坐不住了,推出并开源了一个真实的、用于评估 AI 大模型编码性能的全新基准 SWE-Lancer。
2/19/2025 11:53:00 AM
机器之心