OpenAI 最新研究揭示：最先进的 AI 仍难以解决编码问题

2025-02-24 09:09

近日，OpenAI 的研究人员在一篇新发布的论文中坦言，尽管目前的 AI 技术已经相当先进，但这些模型依然无法与人类程序员相媲美。 OpenAI 首席执行官山姆・阿尔特曼曾表示，预计到今年底，AI 将能够战胜 “低级” 软件工程师，但研究结果却显示，这些 AI 模型仍然面临重大挑战。图源备注：图片由AI生成，图片授权服务商Midjourney在研究中，OpenAI 团队使用了一种名为 SWE-Lancer 的新基准测试，评估了从自由职业网站 Upwork 上提取的1400多项软件工程任务的表现。

近日，OpenAI 的研究人员在一篇新发布的论文中坦言，尽管目前的 AI 技术已经相当先进，但这些模型依然无法与人类程序员相媲美。OpenAI 首席执行官山姆・阿尔特曼曾表示，预计到今年底，AI 将能够战胜 “低级” 软件工程师，但研究结果却显示，这些 AI 模型仍然面临重大挑战。

代码互联网 (1)

图源备注：图片由AI生成，图片授权服务商Midjourney

在研究中，OpenAI 团队使用了一种名为 SWE-Lancer 的新基准测试，评估了从自由职业网站 Upwork 上提取的1400多项软件工程任务的表现。该测试重点考察了三个大型语言模型（LLM）的编码能力，包括 OpenAI 的 o1推理模型、旗舰产品 GPT-4o 以及 Anthropic 的 Claude3.5Sonnet。

这些模型被要求完成两种类型的任务:一是单个任务，主要集中于修复程序中的错误;二是管理任务，要求模型进行更高层次的决策。在测试过程中，这些模型没有访问互联网的权限，意味着它们无法直接查找网上的答案。

尽管这些模型承接的任务总价值高达数十万美元，但它们只能修复表面性的问题，难以在复杂项目中找到更深层次的错误和根本原因。这种情况让人想起使用 AI 的体验:AI 虽然能快速生成看似正确的信息，但经常会在更深入的检验中暴露出不足。

论文指出，虽然这三款 LLM 在处理任务的速度上远超人类，但它们往往无法全面理解错误的广泛性和上下文，这导致它们给出的解决方案常常不够准确或不够全面。研究人员表示，Claude3.5Sonnet 的表现优于 OpenAI 的两款模型，获得的收益也更高，但其回答的准确率仍未达到可信赖的水平。

研究表明，尽管这些先进的 AI 模型在某些特定任务上能够快速运作，但它们在整体软件工程能力上仍显不足，远未达到可以取代人类程序员的水平。然而，这并未阻止一些企业将人类程序员替换为尚不成熟的 AI 模型。

划重点:
🧑‍💻 OpenAI 研究表明，先进 AI 模型在编码能力上仍落后于人类程序员。
🚫 三款 AI 模型在修复编码错误方面表现不佳，难以解决复杂问题。
🔍 尽管 AI 速度快，但它们缺乏全面理解能力，导致解决方案的准确性不足。

OpenAI CFO称正在开发AI代理“A-SWE ”以替换软件工程师

在最近的高盛会议上，OpenAI 首席财务官莎拉・弗莱尔（Sarah Friar）透露，该公司正在开发一种名为 “A-SWE” 的人工智能(AI)代理，旨在全面取代软件工程师的工作。弗莱尔表示，这一新型 AI 不仅能增强现有工程师的工作效率，更能独立完成从应用程序开发到质量保证、故障排除和文档编写等多项任务。她指出，A-SWE 将使企业的开发团队 “倍增”。

4/15/2025 12:02:18 PM

AI在线

开源版AI程序员来了：GPT-4加持，能力比肩Devin，一天1.4k Star

不到 24 小时，Star 量突破 1400。最近，有很多人在为 AI 代替自己的工作而担忧。上个月火遍 AI 圈的「首位 AI 程序员」Devin，利用大模型能力已经掌握了全栈技能，仅需要人类给出自然语言指令，就可以自动完成复杂的代码任务。Devin 展示的能力非常惊艳，不过这款工具出自走闭源路线的创业公司，现在只有一小部分获得了内测名额的人才能使用。本周二，来自普林斯顿大学 NLP 组的研究人员放出了 SWE-agent —— 一个开源版 AI 程序员，不到一天就获得了上千的 GitHub Star 量。SWE

4/3/2024 2:45:00 PM

机器之心

OpenAI「草莓」模型再次跳票，凌晨发布的SWE-bench Verified是个啥？

有人说，「我们期待的是草莓，但他们发布的是羽衣甘蓝。」我们来看看这个「羽衣甘蓝」是做什么用的。一直以来，大模型的编程能力都备受关注，超强 AI 程序员 Devin 的问世更是将「AI 能否替代程序员」这一话题推上了风口浪尖。最近，Devin 也迎来了新对手 —— 初创公司 Cosine 推出的自主 AI 程序员 Genie。该公司表示，Genie 的表现轻松超越了 Devin，在第三方基准测试 SWE-bench 上的得分为 30%，而 Devin 的得分仅为 13.8%。这个 SWE-Bench 是一个用于评估

8/14/2024 2:38:00 PM

机器之心

资讯热榜

AI视频资讯早读！7个产品更新+8个案例精选 Manus开源平替！Kortix-AI正式发布开源通用AI智能体平台Suna 纳米AI发布MCP万能工具箱，简化AI工具集成与调用 Trae v1.3.0重磅更新，新增MCP与.rules支持引领AI开发新体验即梦3.0海外版发布，电影级视觉与精准英文排版引领AI创作新高度 OpenAI发布gpt-image-1 API，4o图像生成能力正式开放 DeepWiki：AI驱动的GitHub代码库百科全书正式亮相腾讯混元3D AI引擎2.5即将揭晓，3D生成技术再升级

标签云

人工智能 OpenAI AIGC AI ChatGPT AI绘画 DeepSeek 数据机器人模型谷歌大模型 Midjourney 智能开源用户学习 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion Gemini 马斯克算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Anthropic Sora 3D AI for Science AI设计机器学习 GPU AI视频开发者场景华为预测人形机器人百度伟达苹果 Transformer 深度学习 xAI 模态字节跳动大语言模型 Claude 搜索驾驶文本具身智能神器推荐 Copilot LLaMA 算力视觉视频生成安全干货合集应用大型语言模型科技亚马逊训练特斯拉 AGI DeepMind

顶部

​OpenAI 最新研究揭示：最先进的 AI 仍难以解决编码问题

相关资讯

OpenAI CFO称正在开发AI代理“A-SWE ”以替换软件工程师

开源版AI程序员来了：GPT-4加持，能力比肩Devin，一天1.4k Star

OpenAI「草莓」模型再次跳票，凌晨发布的SWE-bench Verified是个啥？

OpenAI 最新研究揭示：最先进的 AI 仍难以解决编码问题