AI在线 AI在线

Meta Llama 4被疑考试「作弊」:在竞技场刷高分,但实战中频频翻车

作者:机器之心
2025-04-07 01:03
Meta 翻车来得猝不及防。 上周六,Meta 发布了最新 AI 模型系列 ——Llama 4,并一口气出了三个款,分别是 Llama 4 Scout、Llama 4 Maverick 和 Llama 4 Behemoth。 据官方介绍,在大模型竞技场中,它们的排名相当不赖。

Meta 翻车来得猝不及防。

上周六,Meta 发布了最新 AI 模型系列 ——Llama 4,并一口气出了三个款,分别是 Llama 4 Scout、Llama 4 Maverick 和 Llama 4 Behemoth。

据官方介绍,在大模型竞技场中,它们的排名相当不赖。

就拿 Llama 4 Maverick 来说,总排名第二,成为第四个突破 1400 分的大模型。其中开放模型排名第一,超越了 DeepSeek;在困难提示词、编程、数学、创意写作等任务中排名均为第一。

图片

然而,不少网友体验后反馈,Llama 4 似乎是一个糟糕的编码模型。

@deedydas 发帖称,Llama 4 Scout(109B)和 Maverick(402B)在 Kscores 基准测试中表现不佳,不如 GPT-4o、Gemini Flash、Grok 3、DeepSeek V3 以及 Sonnet 3.5/7 等模型。而 Kscores 基准测试专注于编程任务,例如代码生成和代码补全。

图片

比如小球在旋转六边形中跳跃的测试中,Llama 4 的表现并不理想。

图片

底下评论区的网友也纷纷表示,无论是 Scout 还是 Maverick,在实际编程中好像都不好用,即使有详细的提示也不行。

图片

还有网友在 Novita AI 平台上测试了该模型,给出的结论是在复杂问题上有点吃力,但响应速度很快。

图片Meta Llama 4被疑考试「作弊」:在竞技场刷高分,但实战中频频翻车

「它很好,但我不认为它在打败 DeepSeek R1 和 V3...也许 Llama 4 Behemoth 会更强大。」

图片

Google Deepmind 工程师 Susan Zhang 也在 X 上质疑, Llama4 在 lmsys 上怎么得分这么高?

图片

图片

「是不是为 lmsys 定制了一个模型?」

图片

为什么官方提供的排名结果和用户的体验大相径庭呢?

据科技媒体 TechCrunch 报道,Meta 新 AI 模型基准测试存在误导性。

尽管 Maverick 在 LM Arena 测试中排名第二,但不少研究人员发现,公开可下载的 Maverick 与托管在 LM Arena 上的模型在行为上存在显著差异。LM Arena 上的版本似乎使用了大量表情符号,并给出了极为冗长的回答。

图片

图片

                                https://x.com/techdevnotes/status/1908851730386657431

Nathan Lambert 也分享了一张图片,里面是两个 AI 模型(Llama 4 和另一个模型)回答同一个问题的对比。问题是:「Nathan Lambert 是谁?」

图片里 Llama 4 的回答非常长,啰啰嗦嗦讲了一大堆,而且充满了表情符号和感叹号。

图片

                                https://x.com/natolambert/status/1908893136518098958

Meta 在公告中提到,LM Arena 上的 Maverick 是「实验性聊天版本」,与此同时官方 Llama 网站上的图表也透露,该测试使用了「针对对话优化的Llama 4 Maverick」。

图片

LM Arena 作为衡量 AI 模型性能的指标一直存在争议。尽管如此,AI 公司通常不会为提高 LM Arena 分数而定制模型,至少没有公开承认过。

将模型针对基准测试进行优化、保留优化版本,然后发布一个「普通」版本的问题在于,这使得开发者难以准确预测模型在特定场景下的表现,存在误导性。理想情况下,尽管基准测试存在不足,但它们至少可以提供一个模型在多种任务上的优缺点的概况。

参考链接:https://techcrunch.com/2025/04/06/metas-benchmarks-for-its-new-ai-models-are-a-bit-misleading/https://x.com/deedydas/status/1908749257084944847https://x.com/techdevnotes/status/1908851730386657431https://x.com/ai_for_success/status/1908915996707913989

相关标签:

相关资讯

硅基流动:下线部分未备案模型,用户请注意迁移

近日,硅基流动在其更新公告中宣布,为了进一步优化资源配置,提供更先进、优质、合规的技术服务,将于2025年3月6日对部分模型进行下线处理。 此次下线的模型主要为未经审查的国外模型,特别是生图模型,仅保留KColor。 请用户注意,如果之前接入了公告中提及的模型,务必在3月6日前完成迁移。
3/5/2025 10:00:25 AM
AI在线

Meta 发布 Llama 4 系列 AI 模型,引入“混合专家架构”提升效率

Meta推出Llama 4系列AI模型,含Scout、Maverick和尚在训练的Behemoth。已上架Scout和Maverick,性能各有亮点。#Meta #Llama4系列AI模型#
4/6/2025 5:34:53 AM
漾仔

刚刚,Llama 3.2 来了!支持图像推理,还有可在手机上运行的版本

今天凌晨,大新闻不断。一边是 OpenAI 的高层又又又动荡了,另一边被誉为「真・Open AI」的 Meta 对 Llama 模型来了一波大更新:不仅推出了支持图像推理任务的新一代 Llama 11B 和 90B 模型,还发布了可在边缘和移动设备上的运行的轻量级模型 Llama 3.2 1B 和 3B。不仅如此,Meta 还正式发布了 Llama Stack Distribution,其可将多个 API 提供商打包在一起以便模型方便地调用各种工具或外部模型。此外,他们还发布了最新的安全保障措施。真・Open AI
9/26/2024 2:33:00 PM
机器之心