大模型火了起来,每天我们都能看到各种「大」新闻。
今天,又来了个 Big News:新开源的一个大模型逾越了 ChatGPT。
具体是什么呢?
OpenLLM 是一系列在极小、多样且高质量的多轮对话数据集上进行微调的开源语言模型。
这两日,作者们革新了该系列模型,并传播鼓吹:OpenChat 模型在 AlpacaEval 上获得 80.9% 的胜率;在 Vicuna GPT-4 评价上,功能抵达 ChatGPT 的 105%。
也就是上面推特截图中,两位博主传播鼓吹的开源模型逾越 ChatGPT/GPT-3.5。
OpenLLM 的特色是鉴于 LLaMA 开源模型,在只有 6,000 个 GPT4 对话的数据集上进行微调,从而抵达非常好的效果。
此次革新的模型型号与评审结果如下:
OpenChat:鉴于 LLaMA-13B,上下文长度为 2048。
在Vicuna GPT-4 评价中抵达 ChatGPT 分数的 105.7% 。
在 AlpacaEval 上抵达 80.9% 的胜率。
OpenChat-8192:鉴于 LLaMA-13B,扩展上下文长度为 8192。
在 Vicuna GPT-4 评价中抵达 ChatGPT 分数的 106.6% 。
在 AlpacaEval 上实现 79.5% 的胜率。
也就是说,两个模型在 Vicuna GPT-4 评价榜单上结果都逾越了 ChatGPT。
但这种评审 + 宣传的方式似乎并不被大家认可。
网友:浮夸
在 Twitter 讨论中,有网友表示,这就是浮夸的说法。
在此「大」新闻公布后,Vicuna 官方也迅速做出了回应。
实际上,Vicuna 的尝试基准已被弃用,现在使用的是更高级的 MT-bench 基准。该基准的尝试,有着更加具有挑战性的任务,并且解决了 gpt4 评价中的偏差以及限制。
在 MT-bench 上,OpenChat 功能表现与 wizardlm-13b 相似。也就是说,开源模型与 GPT-3.5 仍然有着一定差距。这也正是 MT-bench 所强调的内容 —— 开源模型不是完美无缺的,但是这将迈向更好的聊天机器人评价。
前几日,机器之心报道内容《「羊驼」们走到哪一步了?研究表示:最好的能抵达 GPT-4 功能的 68%》,也对开源模型的功能进行了评价。
评价还表示,在任何给定的评价中,最佳模型的平均功能抵达 ChatGPT 的 83%、GPT-4 的 68%,这表示需要进一步构建更好的基础模型和指令调优数据以缩小差距。
感兴趣的读者可以查看原文。