AI在线 AI在线

第一个超越ChatGPT的开源模型来了?网友并不买账

作者:机器之心
2023-07-03 02:41
开源模型真的超过 ChatGPT了吗?

大模型火了起来,每天我们都能看到各种「大」新闻。

图片

今天,又来了个 Big News:新开源的一个大模型超越了 ChatGPT。

具体是什么呢?

OpenLLM 是一系列在极小、多样且高质量的多轮对话数据集上进行微调的开源语言模型。

这两日,作者们更新了该系列模型,并宣称:OpenChat 模型在 AlpacaEval 上获得 80.9% 的胜率;在 Vicuna GPT-4 评估上,性能达到 ChatGPT 的 105%。

图片

也就是上面推特截图中,两位博主宣称的开源模型超越 ChatGPT/GPT-3.5。

OpenLLM 的特色是基于 LLaMA 开源模型,在只有 6,000 个 GPT4 对话的数据集上进行微调,从而达到非常好的效果。

此次更新的模型型号与评审结果如下:

OpenChat:基于 LLaMA-13B,上下文长度为 2048。

在Vicuna GPT-4 评估中达到 ChatGPT 分数的 105.7% 。

在 AlpacaEval 上达到 80.9% 的胜率。

OpenChat-8192:基于 LLaMA-13B,扩展上下文长度为 8192。

在 Vicuna GPT-4 评估中达到 ChatGPT 分数的 106.6% 。

在 AlpacaEval 上实现 79.5% 的胜率。

也就是说,两个模型在 Vicuna GPT-4 评估榜单上结果都超越了 ChatGPT。

但这种评审 + 宣传的方式似乎并不被大家认可。

网友:夸张

在 Twitter 讨论中,有网友表明,这就是夸张的说法。

图片

在此「大」新闻公布后,Vicuna 官方也迅速做出了回应。

实际上,Vicuna 的测试基准已被弃用,现在使用的是更高级的 MT-bench 基准。该基准的测试,有着更加具有挑战性的任务,并且解决了 gpt4 评估中的偏差以及限制。

在 MT-bench 上,OpenChat 性能表现与 wizardlm-13b 相似。也就是说,开源模型与 GPT-3.5 仍然有着一定差距。这也正是 MT-bench 所强调的内容 —— 开源模型不是完美无缺的,但是这将迈向更好的聊天机器人评估。

图片

图片

前几日,机器之心报道内容《「羊驼」们走到哪一步了?研究表明:最好的能达到 GPT-4 性能的 68%》,也对开源模型的性能进行了评估。

评估还表明,在任何给定的评估中,最佳模型的平均性能达到 ChatGPT 的 83%、GPT-4 的 68%,这表明需要进一步构建更好的基础模型和指令调优数据以缩小差距。

感兴趣的读者可以查看原文。

相关标签:

相关资讯

羊驼系列大模型和ChatGPT差多少?详细测评后,我沉默了

总的来说,该测试得出的结论是:MPT 还没有准备好在现实世界中使用,而 Vicuna 对于许多任务来说是 ChatGPT (3.5) 的可行替代品。
5/15/2023 8:57:00 AM
机器之心

OpenAI推全新语音转录模型gpt-4o-transcribe,语音转文字准确率飙升

继此前在语音 AI 领域引发一些关注后,OpenAI并未停下在该领域探索的脚步,现在这家ChatGPT的创造者再次发力,推出了三款全新的自主研发语音模型,分别为:gpt-4o-transcribe, gpt-4o-mini-transcribe and gpt-4o-mini-tts。 其中最受瞩目的当属gpt-4o-transcribe。 目前,这些新模型已经率先通过应用程序接口(API)向第三方开发者开放,开发者们可以利用它们打造更智能的应用程序。
3/21/2025 9:01:00 AM
AI在线

OpenAI发布GPT-4.1系列模型:能力全面超越前代

4月15日,OpenAI 在其官方博客宣布正式发布 GPT-4.1系列模型,涵盖 GPT-4.1、GPT-4.1mini 和 GPT-4.1nano 三款子模型。 该系列在编程能力、指令理解及长文本处理等方面实现重大突破,全面超越前代 GPT-4o 及 GPT-4o mini。 其中,模型上下文窗口扩展至100万 tokens,知识库更新至2024年6月,为复杂任务提供更强支持。
4/15/2025 9:00:45 AM
AI在线