一次通过率73％，开源代码大模型WizardCoder超过最新GPT-4以外所有闭/开源模型

AI
23年8月27日
编辑

机器之心

这几天，代码大模型领域又热闹了起来！

先是 Meta 开源代码专用大模型 Code Llama，且免费商用。效果也非常好，Code Llama 在 HumanEval 和 MBPP 代码数据集上的一次生成通过率（pass@1）轻松超过 GPT-3.5，其中「Unnatural」版本的 pass@1 逼近了原始 GPT-4（OpenAI 在今年 3 月 GPT-4 技术报告中的数据）。

一次通过率73％，开源代码大模型WizardCoder超过最新GPT-4以外所有闭/开源模型

Code Llama 发布仅一天，来自 Phind 组织的研究人员用微调的 Code Llama-34B 在 HumanEval 评估中击败了 GPT-4。他们的两个模型 Phind-CodeLlama-34B-v1 以及 Phind-CodeLlama-34B-Python-v1 在 HumanEval 分别实现 67.6% 和 69.5% 的 pass@1，显然都超过了原始 GPT-4 的 67%。

一次通过率73％，开源代码大模型WizardCoder超过最新GPT-4以外所有闭/开源模型

不过，仅仅又过了一天，Phind 微调版 Code Llama 又迎来了一个强劲的对手。这次是 WizardLM 团队的编程专用大模型 WizardCoder。

该团队推出了基于 Code Llama 的最新版本模型 WizardCoder 34B，它利用 Evol-Instruct 进行微调而成。

结果显示，它在 HumanEval 上的 pass@1 达到了惊人的 73.2%，超过了原始 GPT-4、ChatGPT-3.5 以及 Claude 2、Bard。此外，WizardCoder 13B 和 7B 版本也将很快到来。

一次通过率73％，开源代码大模型WizardCoder超过最新GPT-4以外所有闭/开源模型

GitHub 地址：https://github.com/nlpxucan/WizardLM/tree/main/WizardCoder

Huggingface：https://huggingface.co/WizardLM/WizardCoder-Python-34B-V1.0

此次具体版本是 WizardCoder-Python-34B-V1.0，下图是与主流闭源和开源模型的 HumanEval pass@1 比较。除了最新 API 的 GPT-4（该团队测试后得到的结果是 82.0%），该模型超过了所有闭源和开源模型，包括最新 API 的 ChatGPT（72.5%）和原始 GPT-4（67%）。

一次通过率73％，开源代码大模型WizardCoder超过最新GPT-4以外所有闭/开源模型

因此，WizardCoder-Python-34B-V1.0 成为了最新的 SOTA 开源代码大模型。

一次通过率73％，开源代码大模型WizardCoder超过最新GPT-4以外所有闭/开源模型

WizardLM 团队还表示，WizardCoder-Python-34B-V1.0 的性能百分之百是可以复现的。

一次通过率73％，开源代码大模型WizardCoder超过最新GPT-4以外所有闭/开源模型

想要体验 WizardCoder-Python-34B-V1.0 的小伙伴可以尝试以下 demo。

一次通过率73％，开源代码大模型WizardCoder超过最新GPT-4以外所有闭/开源模型

demo 地址：http://47.103.63.15:50085/

有人表示，在试了 demo 后发现，提供准确代码之前似乎有 COT（思维链）在起作用，这非常棒。

一次通过率73％，开源代码大模型WizardCoder超过最新GPT-4以外所有闭/开源模型

还有人表示，WizardCoder-Python-34B-V1.0 要比 GPT-4 犯的错更少。

一次通过率73％，开源代码大模型WizardCoder超过最新GPT-4以外所有闭/开源模型

不过运行 WizardCoder-Python-34B-V1.0 需要 32GB 以上的 mac。

一次通过率73％，开源代码大模型WizardCoder超过最新GPT-4以外所有闭/开源模型

WizardLM 团队会带来更多惊喜

WizardCoder 在成为代码家族一员已经不是新鲜事，但是 WizardLM 团队每次都会给大家带来不一样的惊喜。

斯坦福发布的大语言模型排行榜 AlpacaEval 是一种基于 LLM 的全自动评估基准，且更加快速和可靠。很多著名的模型如 GPT-4、ChatGPT 等都在其上刷榜单。在这其中，WizardLM 13B V1.2 依旧在第六位。

一次通过率73％，开源代码大模型WizardCoder超过最新GPT-4以外所有闭/开源模型

WizardLM 是由 Can Xu 等人在 2023 年 4 月提出的一个能够根据复杂指令生成文本的大型语言模型。它使用了一个名为 Evol-Instruct 的算法来生成和改写指令数据，从而提高了指令的复杂度和多样性。 WizardLM 共有三个版本：7B、13B 和 30B。

WizardLM 推出的指令微调代码大模型 ——WizardCoder，更是打破了闭源模型的垄断地位，在 HumanEval 和 HumanEval + 上优于 Anthropic 的 Claude 和 Google 的 Bard。

更值得一提的是，WizardCoder 还大幅度地提升了开源模型的 SOTA 水平，创造了惊人的进步，提高了 22.3% 的性能，成为了开源领域的新晋「领头羊」。

以下为 WizardLM 团队在 GitHub 上发布的诸多模型，这些模型是该团队不断创新、改进的足迹。

一次通过率73％，开源代码大模型WizardCoder超过最新GPT-4以外所有闭/开源模型

WizardLM 团队在 WizardLM 与 WizardCoder 之后，还在今年八月中旬公布了 WizardMath。该团队还发推文表示，自己一直在致力于解决各个学科复杂的问题。

一次通过率73％，开源代码大模型WizardCoder超过最新GPT-4以外所有闭/开源模型

那么未来 WizardLM 团队还会带给我们怎样的惊喜，让我们拭目以待。

给TA打赏

共{{data.count}}人

人已打赏

34B GPT WizardCoder WizardLM 模型

Midjourney 迎来最强对手，种子轮融资大佬云集，测试版让马斯克一「键」穿越

2023-8-24 17:35:00

致命幻觉题目、开发GPU替代品，大模型还面临这10大挑战

2023-8-27 20:28:00

0 条回复 A文章作者 M管理员

更换删除

暂无讨论，说说你的看法吧

TOP1

刚刚，AI颠覆物理模拟：一句话精准仿真，学术圈半壁江山联手耗时24个月研究成果
12月19日
TOP2

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物
12月19日
TOP3

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新
12月16日
2024年AI 编程现在可以做到什么程度？
12月18日
抢跑OpenAI！谷歌Gemini 2.0震撼登场：全面转向Agent，多模态输入输出，免费随便玩
12月12日
实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！
12月16日
超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~
12月12日
腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践
12月11日

❯

个人中心

今日签到

搜索

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

我的优惠劵

_￥_优惠劵
使用时效：无法使用
使用时效：
之前
使用时效：永久有效

优惠劵ID：
×
限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]
所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×
删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部