​OpenAI 最新研究揭示:最先进的 AI 仍难以解决编码问题

近日,OpenAI 的研究人员在一篇新发布的论文中坦言,尽管目前的 AI 技术已经相当先进,但这些模型依然无法与人类程序员相媲美。 OpenAI 首席执行官山姆・阿尔特曼曾表示,预计到今年底,AI 将能够战胜 “低级” 软件工程师,但研究结果却显示,这些 AI 模型仍然面临重大挑战。 图源备注:图片由AI生成,图片授权服务商Midjourney在研究中,OpenAI 团队使用了一种名为 SWE-Lancer 的新基准测试,评估了从自由职业网站 Upwork 上提取的1400多项软件工程任务的表现。

近日,OpenAI 的研究人员在一篇新发布的论文中坦言,尽管目前的 AI 技术已经相当先进,但这些模型依然无法与人类程序员相媲美。OpenAI 首席执行官山姆・阿尔特曼曾表示,预计到今年底,AI 将能够战胜 “低级” 软件工程师,但研究结果却显示,这些 AI 模型仍然面临重大挑战。

代码 互联网  (1)

图源备注:图片由AI生成,图片授权服务商Midjourney

在研究中,OpenAI 团队使用了一种名为 SWE-Lancer 的新基准测试,评估了从自由职业网站 Upwork 上提取的1400多项软件工程任务的表现。该测试重点考察了三个大型语言模型(LLM)的编码能力,包括 OpenAI 的 o1推理模型、旗舰产品 GPT-4o 以及 Anthropic 的 Claude3.5Sonnet。

这些模型被要求完成两种类型的任务:一是单个任务,主要集中于修复程序中的错误;二是管理任务,要求模型进行更高层次的决策。在测试过程中,这些模型没有访问互联网的权限,意味着它们无法直接查找网上的答案。

尽管这些模型承接的任务总价值高达数十万美元,但它们只能修复表面性的问题,难以在复杂项目中找到更深层次的错误和根本原因。这种情况让人想起使用 AI 的体验:AI 虽然能快速生成看似正确的信息,但经常会在更深入的检验中暴露出不足。

论文指出,虽然这三款 LLM 在处理任务的速度上远超人类,但它们往往无法全面理解错误的广泛性和上下文,这导致它们给出的解决方案常常不够准确或不够全面。研究人员表示,Claude3.5Sonnet 的表现优于 OpenAI 的两款模型,获得的收益也更高,但其回答的准确率仍未达到可信赖的水平。

研究表明,尽管这些先进的 AI 模型在某些特定任务上能够快速运作,但它们在整体软件工程能力上仍显不足,远未达到可以取代人类程序员的水平。然而,这并未阻止一些企业将人类程序员替换为尚不成熟的 AI 模型。

划重点:

🧑‍💻 OpenAI 研究表明,先进 AI 模型在编码能力上仍落后于人类程序员。  

🚫 三款 AI 模型在修复编码错误方面表现不佳,难以解决复杂问题。  

🔍 尽管 AI 速度快,但它们缺乏全面理解能力,导致解决方案的准确性不足。  

相关资讯

开源版AI程序员来了:GPT-4加持,能力比肩Devin,一天1.4k Star

不到 24 小时,Star 量突破 1400。最近,有很多人在为 AI 代替自己的工作而担忧。上个月火遍 AI 圈的「首位 AI 程序员」Devin,利用大模型能力已经掌握了全栈技能,仅需要人类给出自然语言指令,就可以自动完成复杂的代码任务。Devin 展示的能力非常惊艳,不过这款工具出自走闭源路线的创业公司,现在只有一小部分获得了内测名额的人才能使用。本周二,来自普林斯顿大学 NLP 组的研究人员放出了 SWE-agent —— 一个开源版 AI 程序员,不到一天就获得了上千的 GitHub Star 量。SWE

OpenAI「草莓」模型再次跳票,凌晨发布的SWE-bench Verified是个啥?

有人说,「我们期待的是草莓,但他们发布的是羽衣甘蓝。」我们来看看这个「羽衣甘蓝」是做什么用的。一直以来,大模型的编程能力都备受关注,超强 AI 程序员 Devin 的问世更是将「AI 能否替代程序员」这一话题推上了风口浪尖。最近,Devin 也迎来了新对手 —— 初创公司 Cosine 推出的自主 AI 程序员 Genie。该公司表示,Genie 的表现轻松超越了 Devin,在第三方基准测试 SWE-bench 上的得分为 30%,而 Devin 的得分仅为 13.8%。这个 SWE-Bench 是一个用于评估

OpenAI 推出 SWE-bench Verified 基准,更准确评估 AI 模型代码生成表现

感谢OpenAI 公司于 8 月 13 日发布新闻稿,宣布推出 SWE-bench Verified 代码生成评估基准,解决了此前的局限性问题,能够更准确地评估人工智能模型在软件工程任务中的表现。SWE-benchAI在线注:SWE-Bench 是一个用于评估 LLM 解决 GitHub 上真实软件问题能力的基准测试数据集。它收集了来自 12 个流行的 Python 仓库的 2294 个 Issue-Pull Request 对。在测试时,LLM 会拿到一个代码库和 issue 描述,然后生成一个补丁来解决 iss