OpenAI百万美元豪测：顶级大模型取代不了程序员

作者：佚名

2025-02-21 11:08

当Sam Altman宣称大模型将取代"低阶程序员"时，OpenAI自家的最新研究却给出了相反的答案。该研究联合百名工程师开展SWE-Lancer基准测试，结果显示：面对价值百万美元的真实软件开发任务，三大顶尖大模型的总收入竟不足21%，最强者Claude 3.5也仅解决26%技术问题。这场AI与人类程序员的"抢饭碗"对决，暂时以机器的惨败告终。

当Sam Altman宣称大模型将取代"低阶程序员"时，OpenAI自家的最新研究却给出了相反的答案。该研究联合百名工程师开展SWE-Lancer基准测试，结果显示：面对价值百万美元的真实软件开发任务，三大顶尖大模型的总收入竟不足21%，最强者Claude 3.5也仅解决26%技术问题。这场AI与人类程序员的"抢饭碗"对决，暂时以机器的惨败告终。

OpenAI百万美元豪测：顶级大模型取代不了程序员

百万美元悬赏：AI抢不走程序员饭碗？

研究团队从自由职业平台Upwork精选1,488个真实开发任务，总赏金高达100万美元。这些任务被分为两类：技术攻坚（IC，764项，41.5万美元）需解决程序错误或开发新功能；项目管理（Manager，724项，58.5万美元）则需评估技术方案优劣。三大参赛选手——OpenAI的GPT-4o、o1和Anthropic的Claude 3.5 Sonnet被置于完全断网的Docker容器中，以防止其"偷看"GitHub代码。

为确保测试真实性，研究人员构建了堪称严苛的评估体系：首先由专业工程师编写Playwright自动化测试脚本，模拟用户登录、金融交易等真实操作流程；每项AI生成的代码方案需经过专业软件工程师的"三重验证"，确保其能通过所有测试用例；最终结果直接接入企业级报销平台Expensify，完全复现真实商业场景。

经过测试，研究人员发现，没有一个模型能包揽100万美元的全部任务奖励。表现最好的Claude 3.5 Sonnet（OpenAI自家模型o1和GPT-4o分列二三位）也只赚了20.8万美元，解决了26.2%的个人贡献者问题。然而，研究人员指出，“它的大部分解决方案都是错误的，可信部署需要更高的可靠性。”

LLM尝试不同类型软件开发任务的通过率

有趣的是，在技术方案评估的管理任务（SWE Manager）上，所有大模型都表现得更好（上图）。

AI开发的致命短板：定位快，但治标不治本

研究者指出，顶级大模型普遍存在致命短板：AI能快速定位bug（速度远超人类），但通常对问题如何跨越多个组件或文件表现出有限的理解，无法解决根本原因，导致解决方案不正确或不够全面。

"就像急诊室里只会贴创可贴的医生。"研究报告犀利指出，大模型处理bug时呈现明显模式：通过关键词搜索快速锁定可疑代码段，却无法理解跨组件/文件的深层关联。典型案例中，AI会机械修改表面错误代码，却放任引发bug的根源继续潜伏——这种"头痛医头"的解决方式，导致多数方案仅能暂时消除症状。

值得玩味的是，尽管当前测试显示AI尚难取代初级软件工程师，但研究者警告："这种优势可能不会持续太久。"当被问及是否担心研究结果影响行业信心时，OpenAI团队回应称："揭示技术边界，正是为了突破边界。"这场人机博弈的终局，或许比我们想象中来得更快。

相关标签：

OpenAI AI 程序员

相关资讯

奥特曼透露：GPT-4.5 已问世，AI 编程能力将在年底超越人类顶尖程序员

奥特曼透露：GPT-4.5 已问世，AI 编程能力将在年底超越人类顶尖程序员

在东京大学的一场对话活动中，OpenAI 的 CEO 奥特曼揭示了其最新的内部推理模型 ——GPT-4.5。他表示，当前这一模型的编程能力已跻身全球 Top50程序员之列，并预计在年底时将成为全球第一。他强调，与顶尖程序员相比，这一模型在编程上的优势越来越明显。

2/10/2025 9:50:00 AM

AI在线

OpenAI推出真实世界百万报酬AI编程能力测试基准：实测Claude 3.5 最强！

OpenAI推出真实世界百万报酬AI编程能力测试基准：实测Claude 3.5 最强！

OpenAI 联合一众大佬发布了一项重磅研究，直接把目光瞄准了真实世界的软件工程！ 🔥 他们推出了一个全新的、价值百万美元的超硬核 benchmark —— SWE-Lancer！具体是啥，我们来扒一扒划重点：什么是 SWE-Lancer？

2/19/2025 9:34:01 AM

AI寒武纪

DeepSeek R1 满血版来了，完全不卡！

DeepSeek R1 满血版来了，完全不卡！

前言最近DeepSeek爆火。我之前也发过多篇关于DeepSeek的文章，推荐大家使用它。今年是AI的一个风口。

2/25/2025 8:20:50 AM

苏三

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！全日程揭晓！ICLR 2025论文分享会我们北京见 5分钟直出46页论文！谷歌Deep Research完爆OpenAI，最强Gemini 2.5加持 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o 击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！ ChatGPT重大更新，能翻出所有历史对话，网友被AI聊破防了

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D AI设计 Anthropic 机器学习 GPU 开发者场景华为预测伟达 Transformer 百度深度学习苹果 AI视频模态驾驶文本人形机器人 xAI 搜索大语言模型 Copilot Claude 字节跳动具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练

顶部