AI在线 AI在线

Meta 新模型 Llama-4-Maverick 排名骤降,引发刷榜质疑

作者:AI在线
2025-04-14 06:01
近日,Meta 公司发布的开源大模型 Llama-4-Maverick 在 LMArena 的排行榜上从第二名直降至第32名,这一剧烈波动引发了开发者们的广泛质疑,认为 Meta 可能通过提交特供版本以刷榜。 事情的起因要追溯到4月6日,Meta 发布了其最新的大模型 Llama4,包括 Scout、Maverick 和 Behemoth 三个版本。 其中,Llama-4-Maverick 在初期的评估中表现亮眼,位列 LMArena 排行榜的第二名,仅次于 Gemini2.5Pro。

近日,Meta 公司发布的开源大模型 Llama-4-Maverick 在 LMArena 的排行榜上从第二名直降至第32名,这一剧烈波动引发了开发者们的广泛质疑,认为 Meta 可能通过提交特供版本以刷榜。事情的起因要追溯到4月6日,Meta 发布了其最新的大模型 Llama4,包括 Scout、Maverick 和 Behemoth 三个版本。其中,Llama-4-Maverick 在初期的评估中表现亮眼,位列 LMArena 排行榜的第二名,仅次于 Gemini2.5Pro。

然而,随着开发者对 Llama4开源版的实际使用反馈逐渐披露,这款模型的声誉迅速下滑。一些开发者发现 Meta 提交给 LMArena 的版本与他们所公开的开源版本存在显著差异,这引发了对 Meta 是否存在刷榜行为的质疑。针对这一问题,Chatbot Arena 官方于4月8日确认,Meta 提供的确实是一个 “特供版”,并表示将考虑更新排行榜。

LLM 羊驼 数学大模型

图源备注:图片由AI生成,图片授权服务商Midjourney

根据 Chatbot Arena 的说法,Meta 首次提交的 Llama-4-Maverick-03-26-Experimental 是一个实验性优化版本,这个版本当时排名第二。而修正后的开源版 Llama-4-Maverick-17B-128E-Instruct,虽然拥有17B 的激活参数和128个 MoE 专家,排名却仅为32名,远远落后于 Gemini2.5Pro、GPT4o 等更高排名的模型,甚至不及基于上一代模型改造的 Llama-3.3-Nemotron-Super-49B-v1。

对于 Llama-4-Maverick-03-26-Experimental 为何表现不如预期,Meta 在最近的一次发布会上解释称,该模型是 “专门针对对话进行优化” 的,因此在 LM Arena 上的表现相对较好。这种优化虽然在排行榜上取得了高分,但也使得开发者们在不同场景下难以准确预测该模型的实际表现。

Meta 发言人向 TechCrunch 表示,Meta 会继续探索各种定制版本,并期待开发者根据自己的需求对 Llama4进行调整和改进。公司希望看到开发者们的创造性成果,同时也重视他们的反馈。

相关资讯

真·ChatGPT平替:无需显卡,MacBook、树莓派就能运行LLaMA

Meta 在上个月末发布了一系列开源大模型 ——LLaMA(Large Language Model Meta AI),参数量从 70 亿到 650 亿不等。由于模型参数量较少,只需单张显卡即可运行,LLaMA 因此被称为 ChatGPT 的平替。发布以来,已有多位开发者尝试在自己的设备上运行 LLaMA 模型,并分享经验。
3/14/2023 2:16:00 PM
机器之心

Llama 2 的入门与实战,机器之心邀请了 4 位技术大牛手把手教你

机器之能报道编辑:Sia「Llama 2 大模型算法与应用实践」-机器之心 AI 技术论坛将于 8 月 26 日在北京举办。如果要问「2023 年最火的动物是什么?」AI 圈外的人可能会回答「熊猫」,并给你列出一长串熊猫的名字。而 AI  圈内的人八成会回答「羊驼」。而且,他们也能给你列出一长串「羊驼」的名字:llama、vicuna、alpaca…… 得益于 Meta Llama 模型的开源,AI 社区的研究者对生物学羊驼属的英文单词已经如数家珍,每个单词都对应着一个(或一组)基于 Llama 的微调模型。这些模
7/30/2023 11:42:00 PM
机器之能

IBM 强化 watsonx.ai:DeepSeek-R1蒸馏版 Llama 模型上线

IBM 近日宣布,其 AI 开发平台 watsonx.ai 现已支持 DeepSeek-R1蒸馏版的 Llama3.18B和 Llama3.370B模型。 DeepSeek 通过知识蒸馏技术,利用 R1模型生成的数据对多个 Llama和 Qwen变体进行了优化,进一步提升了模型性能。 在 watsonx.ai平台上,用户可以通过两种方式使用 DeepSeek 蒸馏模型。
2/11/2025 2:25:00 PM
AI在线