AI在线 AI在线

OpenAI最新基准测试:AI编程能力达人类四分之一,显现局限性

作者:AI在线
2025-02-20 10:37
OpenAI近日发布了一项重要的AI编程能力评估报告,通过价值100万美元的实际开发项目揭示了AI在软件开发领域的现状。 这项名为SWE-Lancer的基准测试涵盖了1,400个来自Upwork的真实项目,全面评估AI在直接开发和项目管理两大领域的表现。 测试结果显示,表现最佳的AI模型Claude3.5Sonnet在编码任务中的成功率为26.2%,在项目管理决策方面达到44.9%。

OpenAI近日发布了一项重要的AI编程能力评估报告,通过价值100万美元的实际开发项目揭示了AI在软件开发领域的现状。这项名为SWE-Lancer的基准测试涵盖了1,400个来自Upwork的真实项目,全面评估AI在直接开发和项目管理两大领域的表现。

测试结果显示,表现最佳的AI模型Claude3.5Sonnet在编码任务中的成功率为26.2%,在项目管理决策方面达到44.9%。虽然这一成绩与人类开发者仍有差距,但在经济效益方面已展现出可观潜力。

数据显示,仅在公开的Diamond数据集中,该模型就能完成价值208,050美元的项目开发工作。如果扩展到完整数据集,AI有望处理价值超过40万美元的任务。

QQ20250220-103559.png

然而,研究也揭示了AI在复杂开发任务中的明显局限。虽然AI能够胜任简单的错误修复工作(如修复冗余API调用),但在面对需要深入理解和全面解决方案的复杂项目时(如跨平台视频播放功能开发)表现欠佳。特别值得注意的是,AI往往能识别问题代码,却难以理解根本原因并提供全面的解决方案。

为推动该领域研究发展,OpenAI已在GitHub上开源了SWE-Lancer Diamond数据集和相关工具,使研究者能够基于统一标准评估各类编程模型的性能。这一举措将为AI编程能力的进一步提升提供重要参考。

相关资讯

OpenAI CFO称正在开发AI代理“A-SWE ”以替换软件工程师

在最近的高盛会议上,OpenAI 首席财务官莎拉・弗莱尔(Sarah Friar)透露,该公司正在开发一种名为 “A-SWE” 的人工智能(AI)代理,旨在全面取代软件工程师的工作。 弗莱尔表示,这一新型 AI 不仅能增强现有工程师的工作效率,更能独立完成从应用程序开发到质量保证、故障排除和文档编写等多项任务。 她指出,A-SWE 将使企业的开发团队 “倍增”。
4/15/2025 12:02:18 PM
AI在线

AWS 发布 SWE-PolyBench:评估 AI 编程助手的新开源基准

近日,AWS AI Labs 推出了 SWE-PolyBench,这是一个多语言的开源基准,旨在为 AI 编程助手的评估提供一个更全面的框架。 随着大规模语言模型(LLM)的进步,AI 编程助手的开发已经取得了显著的进展,这些助手能够生成、修改和理解软件代码。 然而,目前的评估方法仍然存在诸多局限,许多基准测试往往仅集中在 Python 等单一语言,无法全面反映真实代码库的结构和语义多样性。
4/24/2025 10:01:16 AM
AI在线

开源版AI程序员来了:GPT-4加持,能力比肩Devin,一天1.4k Star

不到 24 小时,Star 量突破 1400。最近,有很多人在为 AI 代替自己的工作而担忧。上个月火遍 AI 圈的「首位 AI 程序员」Devin,利用大模型能力已经掌握了全栈技能,仅需要人类给出自然语言指令,就可以自动完成复杂的代码任务。Devin 展示的能力非常惊艳,不过这款工具出自走闭源路线的创业公司,现在只有一小部分获得了内测名额的人才能使用。本周二,来自普林斯顿大学 NLP 组的研究人员放出了 SWE-agent —— 一个开源版 AI 程序员,不到一天就获得了上千的 GitHub Star 量。SWE
4/3/2024 2:45:00 PM
机器之心
  • 1