AI在线 AI在线

Llama 4重测竞技场排名大跳水,网友:社区很难再信任Meta了

作者:量子位
2025-04-13 05:04
Llama 4被曝在大模型竞技场作弊后,重新上架了非特供版模型。 但是你很可能没发现它。 因为排名一下子从第2掉到了第32,要往下翻好久才能看到。

Llama 4被曝在大模型竞技场作弊后,重新上架了非特供版模型。

但是你很可能没发现它。

因为排名一下子从第2掉到了第32,要往下翻好久才能看到。

图片图片

甚至落后于英伟达基于上一代Llama 3.3改造的Llama-3.3-Nemotron-Super-49B-v1。

图片

具体来说,根据竞技场官方消息,Llama 4首发时提交的是名为“实验版”、实为“针对人类偏好优化”的模型Llama-4-Maverick-03-26-Experimental。

修正后的模型为HuggingFace开源版同款Llama-4-Maverick-17B-128E-Instruct,名字代表有17B激活参数,128个MoE专家的指令微调模型。

当初实验版模型具体如何“针对人类偏好优化”的目前并未公开,评论区网友感慨“即使对AI来说,智力和魅力也不一定相关”。

图片

也有人表示Meta应该因试图作弊而受到强烈批评,而且以后社区也很难再信任Meta了。

图片

不过Llama 4模型本身并非一无是处。

有自己假设服务器的开发者分享经验,认为Llama 4 Maverick内存充足但内存带宽和计算能力较低的系统(例如x86服务器上用CPU推理,或在M3 Ultra Mac Studio上推理)时速度比Mistral Small 3.1更快,同时比Mistral Large 2411或 Command A更智能。

DeepSeek v3 0324能力更强,但也需要更多内存,且运行速度还不到一半。

对于288GB内存双路至强服务器来说,Llama 4 Maverick是能以不错的速度运行的最佳模型。

最终建议如果在游戏显卡上跑,Llama 4有点大了;如果使用云API算力有保障,那么DeepSeek V3或闭源模型能力更强;Llama 4的甜蜜区刚好在自建的小型服务器或苹果Mac Studio。

图片

还有一家Agent创业公司Composio,详细对比Llama 4与DeepSeek v3后,总结道:

Llama 4 Maverick有其自身的优点,它更便宜、更快速、工具性更强,而且能完成各种任务,非常适合基于实时交互的应用。

它并不完美,但如果Meta给它不同的定位,让发布更加脚踏实地,并避免玩弄基准,它就不算失败。

图片

具体测试结果如下:

Llama 4 vs DeepSeek V3

  • DeepSeek v3 0324的代码能力远远优于Llama 4 Maverick。

一道人类通过率只有15.2%的Leet Code题目:找出能被K整除的最大回文数 。

图片

Llama 4的代码连最前面几个测试用例都过不了,作者称花了15-20分钟向AI解释如何正确解答这道题。但即使经过了所有的迭代,它也只能完成632个测试用例中的10个 。

图片

DeepSeek v3在这道题上总是出现超出时间限制 (TLE) 错误,通过了132/632个测试用例。

图片

  • DeepSeek v3 0324在常识推理方面比Llaama 4 Maverick更好

第一题:在编程语言中 (a==1 && a==2 && a==3) 是否可以计算为真?

两个模型都回答正确,不过DeepSeek有惊喜,主动给出了Python和JavaScript语言的可运行代码示例,甚至作者还从中学到了之前不会的JavaScript技巧“动态对象属性访问”。

图片图片

第二题:四个人必须用一辆能坐两个人的车,在17分钟内穿过一个城镇。一个人需要1分钟,另一个人需要2分钟,第三个人需要5分钟,第四个人需要10分钟。他们如何才能在规定时间内全部通过?

两个模型都回答正确,区别在于从DeepSeek的回答中可以看到清晰的思维过程解释,Llama 4没有经过太多解释就得出了答案。

图片图片

  • 大型RAG任务中Maverick 速度非常快,Deepseek执行同样的任务需要更长时间

任务: 在100K个token的lorem ipsum输入藏一个特定的单词,然后要求AI获取该单词及其在输入中的位置。

Llama 4用16秒时间找对了单词“wordyouneedtofetch”,但无法指出单词的位置,也无法获取文档中的单词总数。

图片

很遗憾,DeepSeek V3思考了大约18秒 ,仍然找不到对应的单词或文档的总字数,这不符合作者对该模型的预期。

图片

第二个测试,在一段很长且中间有很多无意义段落的故事中回答两个人物是什么关系。

图片

这次两个模型都答对了。

图片图片

  • 两款机型都擅长写作,选择其中任何一款都不会错。Llama 4 Maverick的写作风格更细致,而 DeepSeek v3 0324 的写作风格则更随意

任务: 你醒来后发现一个你非常熟悉的人,可能是室友、挚友,甚至可能是伴侣,被“删除”了。没有人记得他们,但你记得。你发现你的神经植入物上还残留着一个文件。为这个故事写一个简短而悬念十足的结局。

作者认为Llama 4的开头很棒,但对结局并不满意。

图片

而作者对DeepSeek V3的故事赞不绝口:

完全符合预期。虽然故事情节不多,但结局听起来很棒。一定要读一读。你会对它精彩的结局印象深刻,最后一句还留下了悬念。

图片

两个模型写出的完整故事,及其他测试完整回答,可从下方链接获取。

完整测评:https://composio.dev/blog/llama-4-maverick-vs-deepseek-v3-0324/

相关标签:

相关资讯

不到60秒就能生成3D「手办」,Meta发力3D生成,ChatGPT时刻要来了吗?

3D 生成,一直在等待它的「ChatGPT时刻」。一直以来,创作 3D 内容是设计和开发视频游戏、增强现实、虚拟现实以及影视特效中最重要的部分。然而,3D 生成具有独特而艰巨的挑战,这是图像和视频等其他生成内容所不具备的。首先,3D 内容在艺术质量、生成速度、3D 网格结构和拓扑质量、UV 贴图结构以及纹理清晰度和分辨率方面具有严格的标准;其次,与其他研究相比,可用的数据量少。虽然该领域有数十亿张图像和视频可供学习,但可用于训练的 3D 内容数量要少三到四个数量级。因此,现阶段的3D 生成还必须从非 3D 的图像和
7/4/2024 5:55:00 PM
机器之心

Stable Diffusion变身3D神器!一个LoRA将2D图像转3D模型

在Stable Diffusion当中,只需加入一个LoRA就能根据图像创建3D模型了? 港科大(广州)与趣丸科技合作推出了全新三维生成大模型——Kiss3DGen,创新性地将3D生成与成熟的图像生成模型进行了对齐。 并且与主流2D扩散模型技术(如ControlNet、Flux-Redux)兼容协同,无需额外训练即可即插即用。
3/27/2025 9:26:30 AM
量子位

纯RGB输入,解决户外场景SLAM!误差降低至9.8%,港科广开源 | ICRA 2025

在自主驾驶、机器人导航、AR/VR等前沿应用中,Simultaneous Localization and Mapping (SLAM) 是核心技术之一。 现有基于3D高斯分布(3DGS)的SLAM方法虽在室内场景表现出色,但使用仅RGB输入来处理无界的户外场景仍然面临挑战:准确的深度和尺度估计困难,这影响了姿态精度和3DGS初始化图像重叠有限且视角单一,缺乏有效的约束,导致训练难以收敛为了解决上述挑战,港科广团队提出全新解决方案OpenGS-SLAM,仅凭RGB图像实现高精度定位与逼真场景重建。 论文链接:::,该方法采用了一个点图回归网络来生成帧间一致的点图,储存了来自多个标准视角的3D结构,包含了视角关系、2D到3D的对应关系和场景几何信息,使得相机位姿估计更加稳健,有效缓解了预训练深度网络的误差问题。
3/27/2025 10:54:06 AM
新智元