AI 编程能力哪家强？阿里通义千问 Qwen 推 CodeElo 基准，OpenAI o1-mini 夺冠超 90% 人类程序员

作者：故渊

2025-01-04 01:32

阿里通义千问 Qwen 最新推出 CodeElo 基准测试，通过和人类程序员对比的 Elo 评级系统，来评估大语言模型（LLM）的编程水平。

阿里通义千问 Qwen 最新推出 CodeElo 基准测试，通过和人类程序员对比的 Elo 评级系统，来评估大语言模型（LLM）的编程水平。

项目背景

大语言模型的 AI 场景应用之一，就是生成、补全代码，只是现阶段评估编程真实能力方面存在诸多挑战。

包括 LiveCodeBench 和 USACO 在内的现有基准测试均存在局限性，缺乏健壮的私有测试用例，不支持专门的判断系统，并且经常使用不一致的执行环境。

CodeElo：借力 CodeForces，打造更精准的 LLM 评估体系

AI在线注：Qwen 研究团队为了解决这些挑战，推出了 CodeElo 基准测试，旨在利用与人类程序员比较的 Elo 评级系统，来评估 LLM 的编程竞赛水平。

CodeElo 的题目来自 CodeForces 平台，该平台以其严格的编程竞赛而闻名，通过直接向 CodeForces 平台提交解决方案，CodeElo 确保了评估的准确性，解决了误报等问题，并支持需要特殊评判机制的题目。此外，Elo 评级系统反映了人类的排名，可以有效比较 LLM 和人类参赛者的表现。

CodeElo 三大核心要素：全面、稳健、标准化

AI 编程能力哪家强？阿里通义千问 Qwen 推 CodeElo 基准，OpenAI o1-mini 夺冠超 90% 人类程序员

CodeElo 基于三个关键要素：

全面的问题选择: 题目按比赛分区、难度级别和算法标签进行分类，提供全面评估。
稳健的评估方法: 提交的代码在 CodeForces 平台上进行测试，利用其特殊评估机制确保准确判断，无需隐藏测试用例，并提供可靠反馈。
标准化的评级计算: Elo 评级系统评估代码的正确性，考虑问题难度，并对错误进行惩罚，激励高质量的解决方案，为评估编码模型提供了细致有效的工具。

测试结果

在对 30 个开源 LLM 和 3 个专有 LLM 进行测试后，OpenAI 的 o1-mini 模型表现最佳，Elo 评分为 1578，超过了 90% 的人类参与者；开源模型中，QwQ-32B-Preview 以 1261 分位居榜首。

AI 编程能力哪家强？阿里通义千问 Qwen 推 CodeElo 基准，OpenAI o1-mini 夺冠超 90% 人类程序员

然而，许多模型在解决简单问题时仍显吃力，通常排名在人类参与者的后 20%。分析显示，模型在数学和实现等类别表现出色，但在动态规划和树形算法方面存在不足。

此外，模型使用 C++ 编码时表现更佳，这与竞技程序员的偏好一致，这些结果突出了 LLM 需要改进的领域。

相关标签：

AI 阿里通义千问 Qwen

相关资讯

720亿参数大模型都拿来开源了！通义千问开源全家桶，最小18亿模型端侧都能跑

720亿参数大模型都拿来开源了！通义千问开源全家桶，最小18亿模型端侧都能跑

目前，通义千问开源全家桶已经有了 18 亿、70 亿、140 亿、720 亿参数量的 4 款基础开源模型，以及跨语言、图像、语音等多种模态的多款开源模型。「Qwen-72B 模型将于 11 月 30 日发布。」前几天，X 平台上的一位网友发布了这样一则消息，消息来源是一段对话。他还说，「如果（新模型）像他们的 14B 模型一样，那将是惊人的。」有位网友转发了帖子并配文「千问模型最近表现不错」。这句话里的 14B 模型指的是阿里云在 9 月份开源的通义千问 140 亿参数模型 Qwen-14B。当时，这个模型在多个权

多模态大模型，阿里通义千问能和GPT-4V掰手腕了

多模态大模型，阿里通义千问能和GPT-4V掰手腕了

通义千问的图像推理能力，最近有了大幅提升。2024 年，大模型领域要卷什么？如果没有思路的话，不妨看看各家大厂都在押注什么方向。最近一段时间，先是 OpenAI 推出 GPT-4V，让大模型拥有了前所未有的图像语义理解能力。谷歌随后跟上，发布的 Gemini 成为了业界第一个原生的多模态大模型，它可以泛化并无缝地理解、操作和组合不同类型的信息，包括文本、代码、音频、图像和视频。很明显，新的方向就是多模态。继 GPT-4 在语言方向的里程碑式突破之后，业界普遍认为「视觉」是下一个爆发的赛道。毕竟人类的五感之中有 80

通义千问GPT-4级主力模型降价97%，1块钱200万tokens

通义千问GPT-4级主力模型降价97%，1块钱200万tokens

5月21日，阿里云抛出重磅炸弹：通义千问GPT-4级主力模型Qwen-Long，API输入价格从0.02元/千tokens降至0.0005元/千tokens，直降97%。这意味着，1块钱可以买200万tokens，相当于5本《新华字典》的文字量。这款模型最高支持1千万tokens长文本输入，降价后约为GPT-4价格的1/400，击穿全球底价。Qwen-Long是通义千问的长文本增强版模型，性能对标GPT-4，上下文长度最高达1千万。除了输入价格降至0.0005元/千tokens，Qwen-Long输出价格也直降90

资讯热榜

罗永浩 Jarvis 初创项目“J1 Assistant AI 助理”上线，利用语音与大模型互动 SK 海力士宣布参展 CES 2025，将展示 122TB 企业级固态硬盘等产品阿里云与黑芝麻智能完成大模型车载芯片级适配突破非视距条件依赖！大规模区域、低成本的UWB-LiDAR标定与单次定位框架清华大学推 AutoDroid-V2：AI 离线在线协同，优化移动端自动化 GUI 控制啥玩意值8499元？马斯克在线打call，国产AI威震天秒售罄斯坦福AI科研神器开源，一键成文GPT-4o mini加持！科研写作彻底解放双手 AI模拟细胞，走向全新虚拟生命，斯坦福团队呼吁是时候走出全新的一步了

标签云