OpenAI最新基准测试:AI编程能力达人类四分之一，显现局限性

2025-02-20 10:37

OpenAI近日发布了一项重要的AI编程能力评估报告，通过价值100万美元的实际开发项目揭示了AI在软件开发领域的现状。这项名为SWE-Lancer的基准测试涵盖了1，400个来自Upwork的真实项目，全面评估AI在直接开发和项目管理两大领域的表现。测试结果显示，表现最佳的AI模型Claude3.5Sonnet在编码任务中的成功率为26.2%，在项目管理决策方面达到44.9%。

OpenAI近日发布了一项重要的AI编程能力评估报告，通过价值100万美元的实际开发项目揭示了AI在软件开发领域的现状。这项名为SWE-Lancer的基准测试涵盖了1，400个来自Upwork的真实项目，全面评估AI在直接开发和项目管理两大领域的表现。

测试结果显示，表现最佳的AI模型Claude3.5Sonnet在编码任务中的成功率为26.2%，在项目管理决策方面达到44.9%。虽然这一成绩与人类开发者仍有差距，但在经济效益方面已展现出可观潜力。

数据显示，仅在公开的Diamond数据集中，该模型就能完成价值208，050美元的项目开发工作。如果扩展到完整数据集，AI有望处理价值超过40万美元的任务。

然而，研究也揭示了AI在复杂开发任务中的明显局限。虽然AI能够胜任简单的错误修复工作（如修复冗余API调用），但在面对需要深入理解和全面解决方案的复杂项目时(如跨平台视频播放功能开发)表现欠佳。特别值得注意的是，AI往往能识别问题代码，却难以理解根本原因并提供全面的解决方案。

为推动该领域研究发展，OpenAI已在GitHub上开源了SWE-Lancer Diamond数据集和相关工具，使研究者能够基于统一标准评估各类编程模型的性能。这一举措将为AI编程能力的进一步提升提供重要参考。

OpenAI CFO称正在开发AI代理“A-SWE ”以替换软件工程师

在最近的高盛会议上，OpenAI 首席财务官莎拉・弗莱尔（Sarah Friar）透露，该公司正在开发一种名为 “A-SWE” 的人工智能(AI)代理，旨在全面取代软件工程师的工作。弗莱尔表示，这一新型 AI 不仅能增强现有工程师的工作效率，更能独立完成从应用程序开发到质量保证、故障排除和文档编写等多项任务。她指出，A-SWE 将使企业的开发团队 “倍增”。

4/15/2025 12:02:18 PM

AI在线

AWS 发布 SWE-PolyBench:评估 AI 编程助手的新开源基准

近日，AWS AI Labs 推出了 SWE-PolyBench，这是一个多语言的开源基准，旨在为 AI 编程助手的评估提供一个更全面的框架。随着大规模语言模型（LLM）的进步，AI 编程助手的开发已经取得了显著的进展，这些助手能够生成、修改和理解软件代码。然而，目前的评估方法仍然存在诸多局限，许多基准测试往往仅集中在 Python 等单一语言，无法全面反映真实代码库的结构和语义多样性。

4/24/2025 10:01:16 AM

AI在线

开源版AI程序员来了：GPT-4加持，能力比肩Devin，一天1.4k Star

不到 24 小时，Star 量突破 1400。最近，有很多人在为 AI 代替自己的工作而担忧。上个月火遍 AI 圈的「首位 AI 程序员」Devin，利用大模型能力已经掌握了全栈技能，仅需要人类给出自然语言指令，就可以自动完成复杂的代码任务。Devin 展示的能力非常惊艳，不过这款工具出自走闭源路线的创业公司，现在只有一小部分获得了内测名额的人才能使用。本周二，来自普林斯顿大学 NLP 组的研究人员放出了 SWE-agent —— 一个开源版 AI 程序员，不到一天就获得了上千的 GitHub Star 量。SWE

4/3/2024 2:45:00 PM

机器之心

资讯热榜

AI视频资讯早读！7个产品更新+8个案例精选 Manus开源平替！Kortix-AI正式发布开源通用AI智能体平台Suna 纳米AI发布MCP万能工具箱，简化AI工具集成与调用即梦3.0海外版发布，电影级视觉与精准英文排版引领AI创作新高度腾讯混元3D AI引擎2.5即将揭晓，3D生成技术再升级 OpenAI发布gpt-image-1 API，4o图像生成能力正式开放 DeepWiki：AI驱动的GitHub代码库百科全书正式亮相基于MiniO存储的RAGFlow+Dify图片处理方案

标签云

人工智能 OpenAI AIGC AI ChatGPT AI绘画 DeepSeek 数据机器人模型谷歌大模型 Midjourney 智能开源用户学习 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion Gemini 马斯克算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Anthropic Sora 3D AI for Science AI设计机器学习 GPU AI视频开发者场景华为预测人形机器人百度伟达苹果 Transformer 深度学习 xAI 模态字节跳动大语言模型 Claude 搜索驾驶文本具身智能神器推荐 Copilot LLaMA 算力安全视觉视频生成干货合集应用大型语言模型科技亚马逊训练特斯拉 AGI DeepMind

顶部

OpenAI最新基准测试:AI编程能力达人类四分之一，显现局限性

相关资讯

OpenAI CFO称正在开发AI代理“A-SWE ”以替换软件工程师

AWS 发布 SWE-PolyBench:评估 AI 编程助手的新开源基准

开源版AI程序员来了：GPT-4加持，能力比肩Devin，一天1.4k Star