OpenAI 最新研究:当前 AI 模型仍无法媲美人类程序员

尽管 OpenAI 首席执行官萨姆・奥尔特曼(Sam Altman)坚称,到今年年底,人工智能模型将能够超越“低级别”软件工程师,但该公司研究人员的最新研究却表明,即使是目前最先进的 AI 模型,仍无法与人类程序员相媲美。

尽管 OpenAI 首席执行官萨姆・奥尔特曼(Sam Altman)坚称,到今年年底,人工智能模型将能够超越“低级别”软件工程师,但该公司研究人员的最新研究却表明,即使是目前最先进的 AI 模型,仍无法与人类程序员相媲美。

OpenAI 最新研究:当前 AI 模型仍无法媲美人类程序员

研究人员在一篇新论文中指出,即使是前沿模型 —— 即那些最具创新性和突破性的 AI 系统 ——“仍然无法解决大多数”编程任务。为此,研究人员开发了一个名为 SWE-Lancer 的新基准测试工具,该工具基于自由职业者网站 Upwork 上的 1400 多个软件工程任务。通过这一基准测试,OpenAI 对三款大型语言模型(LLMs)进行了测试,分别是其自身的 o1 推理模型、旗舰产品 GPT-4o,以及 Anthropic 公司的 Claude 3.5 Sonnet。

OpenAI 最新研究:当前 AI 模型仍无法媲美人类程序员

具体而言,这一新基准测试评估了这些 LLMs 在处理 Upwork 上的两类任务时的表现:一类是个体任务,涉及修复漏洞并实施修复措施;另一类是管理任务,要求模型从更宏观的角度做出更高层次的决策。值得注意的是,在测试过程中,这些模型被禁止访问互联网,因此它们无法直接抄袭网上已有的类似答案。

这些模型所承担的任务在 Upwork 上的价值累计可达数十万美元,但它们仅能解决一些表面的软件问题,却无法在大型项目中真正找到漏洞及其根源。这种“半成品”的解决方案,对于与 AI 有过合作经验的人来说并不陌生 ——AI 擅长输出听起来自信满满的信息,但在仔细审查时往往漏洞百出。

尽管论文指出,这三款 LLMs 通常能够“远快于人类”地完成任务,但它们却无法理解漏洞的广泛性及其背景,从而导致解决方案“错误或不够全面”。

研究人员解释称,Claude 3.5 Sonnet 的表现优于另外两款 OpenAI 模型,并且在测试中“赚取”的金额也超过了 o1 和 GPT-4o。然而,其大多数答案仍然是错误的。研究人员指出,任何模型若想被真正用于实际编程任务,都需要具备“更高的可靠性”。

简而言之,该论文似乎表明,尽管这些前沿模型能够快速地处理一些细节任务,但它们在处理这些任务时的技能水平,仍远远不及人类工程师。

尽管近年来这些大型语言模型取得了快速的发展,并且未来还会继续进步,但它们目前在软件工程领域的技能水平仍不足以取代人类。然而AI在线注意到,这似乎并未阻止一些首席执行官解雇人类程序员,转而使用这些尚未成熟的 AI 模型。

相关资讯

谷歌 CEO 皮查伊:AI 不会取代程序员,反而会让更多人成为程序员

近年来,人工智能(AI)的飞速发展引发了广泛讨论,人们担心 AI 是否会取代人类的工作。艺术家和程序员尤其担心,因为 AI 似乎能够胜任这两项工作。然而,谷歌及其母公司 Alphabet 的 CEO 桑达尔・皮查伊(Sundar Pichai)认为,AI 不会取代程序员,相反,其将帮助更多人成为程序员。图源 Pixabay皮查伊在卡内基梅隆大学的演讲中谈到了 AI 对编程工作的影响,他表示,AI 最有可能帮助人们,而不是取代他们。它可以帮助现有程序员专注于更高级的任务,而不是重复解决同样的问题。此外,皮查伊认为 A

新晋AI编程神器干翻Cursor!首创实时感知无限用,估值12.5亿华人初创震惊AI界

Cursor爆火之后,AI编码界好久没有再掀起这么大的风浪了。 它被誉为,唯一能与Cursor匹敌的AI工具! 新晋AI编程工具Windsurf,由估值12.5亿美元的美国初创公司Codeium打造,发布瞬间成为顶流。

AI爆程序员失业潮!小扎正开发编程智能体,「中级程序员」剩最后一年?

今年,编程可能从就业市场上最受追捧的技能之一,变成一种可以完全自动化的技能。 从小扎最近「信心满满」的发言来看,这并不是空穴来风:到2025年,我们Meta以及其他正在研究这一领域的公司,很可能会开发出一种AI,它能够发挥相当于中级工程师的作用,具备编写代码的能力。 甚至,他还提出了一个「终极设想」——Meta大部分代码的编写,以及AI系统的开发,都将由「人·工智能」工程师来完成,不是「人·类」工程师!