AI 编程能力哪家强?阿里通义千问 Qwen 推 CodeElo 基准,OpenAI o1-mini 夺冠超 90% 人类程序员

阿里通义千问 Qwen 最新推出 CodeElo 基准测试,通过和人类程序员对比的 Elo 评级系统,来评估大语言模型(LLM)的编程水平。

阿里通义千问 Qwen 最新推出 CodeElo 基准测试,通过和人类程序员对比的 Elo 评级系统,来评估大语言模型(LLM)的编程水平。

项目背景

大语言模型的 AI 场景应用之一,就是生成、补全代码,只是现阶段评估编程真实能力方面存在诸多挑战。

包括 LiveCodeBench 和 USACO 在内的现有基准测试均存在局限性,缺乏健壮的私有测试用例,不支持专门的判断系统,并且经常使用不一致的执行环境。

CodeElo:借力 CodeForces,打造更精准的 LLM 评估体系

AI在线注:Qwen 研究团队为了解决这些挑战,推出了 CodeElo 基准测试,旨在利用与人类程序员比较的 Elo 评级系统,来评估 LLM 的编程竞赛水平。

CodeElo 的题目来自 CodeForces 平台,该平台以其严格的编程竞赛而闻名,通过直接向 CodeForces 平台提交解决方案,CodeElo 确保了评估的准确性,解决了误报等问题,并支持需要特殊评判机制的题目。此外,Elo 评级系统反映了人类的排名,可以有效比较 LLM 和人类参赛者的表现。

CodeElo 三大核心要素:全面、稳健、标准化

AI 编程能力哪家强?阿里通义千问 Qwen 推 CodeElo 基准,OpenAI o1-mini 夺冠超 90% 人类程序员

CodeElo 基于三个关键要素:

  • 全面的问题选择: 题目按比赛分区、难度级别和算法标签进行分类,提供全面评估。

  • 稳健的评估方法: 提交的代码在 CodeForces 平台上进行测试,利用其特殊评估机制确保准确判断,无需隐藏测试用例,并提供可靠反馈。

  • 标准化的评级计算: Elo 评级系统评估代码的正确性,考虑问题难度,并对错误进行惩罚,激励高质量的解决方案,为评估编码模型提供了细致有效的工具。

测试结果

在对 30 个开源 LLM 和 3 个专有 LLM 进行测试后,OpenAI 的 o1-mini 模型表现最佳,Elo 评分为 1578,超过了 90% 的人类参与者;开源模型中,QwQ-32B-Preview 以 1261 分位居榜首。

AI 编程能力哪家强?阿里通义千问 Qwen 推 CodeElo 基准,OpenAI o1-mini 夺冠超 90% 人类程序员

然而,许多模型在解决简单问题时仍显吃力,通常排名在人类参与者的后 20%。分析显示,模型在数学和实现等类别表现出色,但在动态规划和树形算法方面存在不足。

此外,模型使用 C++ 编码时表现更佳,这与竞技程序员的偏好一致,这些结果突出了 LLM 需要改进的领域。

相关资讯

720亿参数大模型都拿来开源了!通义千问开源全家桶,最小18亿模型端侧都能跑

目前,通义千问开源全家桶已经有了 18 亿、70 亿、140 亿、720 亿参数量的 4 款基础开源模型,以及跨语言、图像、语音等多种模态的多款开源模型。「Qwen-72B 模型将于 11 月 30 日发布。」前几天,X 平台上的一位网友发布了这样一则消息,消息来源是一段对话。他还说,「如果(新模型)像他们的 14B 模型一样,那将是惊人的。」有位网友转发了帖子并配文「千问模型最近表现不错」。这句话里的 14B 模型指的是阿里云在 9 月份开源的通义千问 140 亿参数模型 Qwen-14B。当时,这个模型在多个权

多模态大模型,阿里通义千问能和GPT-4V掰手腕了

通义千问的图像推理能力,最近有了大幅提升。2024 年,大模型领域要卷什么?如果没有思路的话,不妨看看各家大厂都在押注什么方向。最近一段时间,先是 OpenAI 推出 GPT-4V,让大模型拥有了前所未有的图像语义理解能力。谷歌随后跟上,发布的 Gemini 成为了业界第一个原生的多模态大模型,它可以泛化并无缝地理解、操作和组合不同类型的信息,包括文本、代码、音频、图像和视频。很明显,新的方向就是多模态。继 GPT-4 在语言方向的里程碑式突破之后,业界普遍认为「视觉」是下一个爆发的赛道。毕竟人类的五感之中有 80

通义千问GPT-4级主力模型降价97%,1块钱200万tokens

5月21日,阿里云抛出重磅炸弹:通义千问GPT-4级主力模型Qwen-Long,API输入价格从0.02元/千tokens降至0.0005元/千tokens,直降97%。这意味着,1块钱可以买200万tokens,相当于5本《新华字典》的文字量。这款模型最高支持1千万tokens长文本输入,降价后约为GPT-4价格的1/400,击穿全球底价。Qwen-Long是通义千问的长文本增强版模型,性能对标GPT-4,上下文长度最高达1千万。除了输入价格降至0.0005元/千tokens,Qwen-Long输出价格也直降90