SWE-Lancer

OpenAI 最新研究揭示：最先进的 AI 仍难以解决编码问题

OpenAI 最新研究揭示：最先进的 AI 仍难以解决编码问题

近日，OpenAI 的研究人员在一篇新发布的论文中坦言，尽管目前的 AI 技术已经相当先进，但这些模型依然无法与人类程序员相媲美。 OpenAI 首席执行官山姆・阿尔特曼曾表示，预计到今年底，AI 将能够战胜 “低级” 软件工程师，但研究结果却显示，这些 AI 模型仍然面临重大挑战。图源备注：图片由AI生成，图片授权服务商Midjourney在研究中，OpenAI 团队使用了一种名为 SWE-Lancer 的新基准测试，评估了从自由职业网站 Upwork 上提取的1400多项软件工程任务的表现。

2/24/2025 9:09:00 AM

AI在线

OpenAI最新基准测试:AI编程能力达人类四分之一，显现局限性

OpenAI最新基准测试:AI编程能力达人类四分之一，显现局限性

OpenAI近日发布了一项重要的AI编程能力评估报告，通过价值100万美元的实际开发项目揭示了AI在软件开发领域的现状。这项名为SWE-Lancer的基准测试涵盖了1，400个来自Upwork的真实项目，全面评估AI在直接开发和项目管理两大领域的表现。测试结果显示，表现最佳的AI模型Claude3.5Sonnet在编码任务中的成功率为26.2%，在项目管理决策方面达到44.9%。

2/20/2025 10:37:00 AM

AI在线

Claude挣钱强于o1！OpenAI开源百万美元编码基准，检验大模型钞能力

Claude挣钱强于o1！OpenAI开源百万美元编码基准，检验大模型钞能力

昨天，AI 圈可以说非常热闹。中午，马斯克 xAI 发布了地表最强旗舰大模型 Grok-3；下午，DeepSeek 梁文锋亲自挂名的论文公开了全新注意力架构 NSA。这下子，OpenAI 坐不住了，推出并开源了一个真实的、用于评估 AI 大模型编码性能的全新基准 SWE-Lancer。

2/19/2025 11:53:00 AM

机器之心

OpenAI 推出 SWE-Lancer 基准测试:评估真实世界自由软件工程工作的模型性能

OpenAI 推出 SWE-Lancer 基准测试:评估真实世界自由软件工程工作的模型性能

在软件工程领域，随着挑战的不断演变，传统的基准测试方法显得力不从心。自由职业的软件工程工作复杂多变，远不止是孤立的编码任务。自由职业工程师需要处理整个代码库，集成多种系统，并满足复杂的客户需求。

2/18/2025 4:55:00 PM

AI在线

1

资讯热榜

AI视频资讯早读！7个产品更新+8个案例精选 Manus开源平替！Kortix-AI正式发布开源通用AI智能体平台Suna Trae v1.3.0重磅更新，新增MCP与.rules支持引领AI开发新体验纳米AI发布MCP万能工具箱，简化AI工具集成与调用即梦3.0海外版发布，电影级视觉与精准英文排版引领AI创作新高度腾讯混元3D AI引擎2.5即将揭晓，3D生成技术再升级 OpenAI发布gpt-image-1 API，4o图像生成能力正式开放 DeepWiki：AI驱动的GitHub代码库百科全书正式亮相

标签云

人工智能 OpenAI AIGC AI ChatGPT AI绘画 DeepSeek 数据机器人模型谷歌大模型 Midjourney 智能开源用户学习 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion Gemini 马斯克算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Anthropic Sora 3D AI for Science AI设计机器学习 GPU AI视频开发者场景华为预测人形机器人百度伟达苹果 Transformer 深度学习 xAI 模态字节跳动大语言模型 Claude 搜索驾驶文本具身智能神器推荐 Copilot LLaMA 算力安全视觉视频生成干货合集应用大型语言模型科技亚马逊训练特斯拉 AGI DeepMind