Claude 3.7硬控马里奥90秒，GPT-4o开局暴毙！Karpathy直呼基准失效，游戏成LLM新战场

作者：新智元

2025-03-04 08:40

LLM评估基准的「黄金标准」，正在失效？一大早，AI大神Karpathy发出质疑，「目前存在一种评估危机，我真的不知道现在该看哪些指标了」。诸如MMLU、SWE-Bench Verified、Chatbot Arena等这些基准，各有自己的优劣之处。

LLM评估基准的「黄金标准」，正在失效？

一大早，AI大神Karpathy发出质疑，「目前存在一种评估危机，我真的不知道现在该看哪些指标了」。

诸如MMLU、SWE-Bench Verified、Chatbot Arena等这些基准，各有自己的优劣之处。

如果这些都不够，那么游戏算不算？

毕竟，曾经红极一时的AlphaGo是围棋界的头号AI；就连OpenAI也早年涉足游戏领域，拿着自研AI在DOTA国际赛中取得亮眼的成绩。

最近，Claude 3.7的出世，让「宝可梦」一时间成为LLM评判的新标杆。

UCSD Hao AI Lab再次出手，开源了一种全新的「游戏智能体」，能够实时让计算机使用智能体（CUA）运行解谜、益智等类型的游戏。

Claude 3.7硬控马里奥90秒，GPT-4o开局暴毙！Karpathy直呼基准失效，游戏成LLM新战场

结果显示，Claude 3.7 Sonnet玩超级马里奥足足撑满90s，直接碾压了OpenAI、Gemini和自家前辈；而GPT-4o一上来就直接挂掉了……

谷歌选手Gemini 1.5 Pro首战即败，而且非常有规律地两步一跳。到了Gemini 2.0虽多走了几步，最终还是栽坑。

GamingAgent项目代码已开源，下载安装即可观战AI游戏大PK。

开源地址：https://github.com/lmgame-org/GamingAgent

Claude 3.7硬控马里奥90秒，GPT-4o开局暴毙！Karpathy直呼基准失效，游戏成LLM新战场

「游戏智能体」演示demo

GPT-4.5反应迟钝，GPT-4o永远被第一个小怪杀死

GPT-4o总是被第一个小怪杀死，像极了操作很烂会被队友喷的游戏菜鸡。

短短20s，游戏就结束了。

相比之下，GPT-4.5的表现就好多了，起码没卡在第一个小怪。

但它的反应还是很迟缓，几乎是两步一停。

跳过一个矮水管之前，也要犹豫片刻，感觉像是刚学会了游戏操作，还在蹒跚学步。

一个稍高点的水管，尝试了7次，足足花了10s才跳了过去。

好不容易跳了过去，就撞到小怪死掉了。第一回合就这样告终了。

更好笑的是，第二回合的时候，GPT-4.5又栽倒在了第一个小怪那里。毕竟和GPT-4o同属于OpenAI家族，操作都比较菜（bushi）。

第三回合表现也比较一般，还不如第一回合。第一个矮水管就卡了半天，搁水管底下卡了快10s才想起来跳。

最后虽然丝滑地跳过了第二个水管，但还是被小怪杀死了，还没有第一回合走得远。第一回合起码跳过了第三个水管，虽说刚跳过就被杀了。

Claude 3.7硬控马里奥90秒，GPT-4o开局暴毙！Karpathy直呼基准失效，游戏成LLM新战场

GPT-4.5完整视频

Gemini 1.5两步一跳，2.0栽进坑里

到了谷歌这边，Gemini 1.5 Pro首战也不如意，没能逃过第一个小怪的魔爪。

第二回合Gemini 1.5算是躲过了第一个小怪，甚至还碰到了问号箱，吃到了蘑菇。

有趣的是，和GPT-4.5两步一停不同，Gemini 1.5是「两步一跳」。

走了这么一小段路，一共就跳了9回。地板上也跳一跳，水管上也跳一跳。

最后也是跳过了第三根水管，甚至差点跳过了第四个，算是走得比GPT-4.5要远。

至于更新的Gemini 2.0 Flash，表现上不出意外地要好得多。

首先，跳得更大胆；其次，跳得也更流畅。

跳到了「前人」未曾涉足的更高的平台上，而且10s就轻松跳过了前面三个水管。

虽然第二回合的时候也惨遭第一个小怪的毒手。

但最后走得比OpenAI家族和Gemini 1.5都远——跳过了第四根水管，栽倒在了一个没能跳过去的坑中。

Claude 3.7硬控马里奥90秒，GPT-4o开局暴毙！Karpathy直呼基准失效，游戏成LLM新战场

Gemini 2.0 Flash完整视频

Claude 3.7 Sonnet发现隐藏奖励

相比之下，Anthropic的Claude，就要惊艳多了。

相比于Gemini两步一跳的操作，Claude 3.7的操作更加丝滑，走得也远很多。

尤其是在跳跃的时机上，显得更有章法，碰到水管、碰到坑才会跳。

此外，还会有意识地通过跳跃来躲避小怪。

跳过了Gemini 2.0 Flash两回合都没跳过去的坑，Claude操作下的马里奥终于是吃到了金币；终于是碰到了除了哥布林（形似蘑菇）之外的小怪——库巴（形似乌龟）；甚至还碰出了隐藏奖励——超级星星。

最后是掉到了阶梯平台之间的坑里，结束了游戏。

AI大战2048益智游戏，GPT-4o拿不出手

接下来，再看一个益智类的游戏2048。

可能很多人对这款游戏并不熟悉，规则是通过滑动进行拼图，玩家将带有相同数字的方块合并，达到可能最高的数值。

GPT-4o在挑战过程中，因为思考过久，陷入困境。

而Claude 3.7虽多走了几步，比GPT-4o强不少，但最终还是以失败告终。

俄罗斯方块，智商在线

那么Claude 3.7玩俄罗斯方块的表现，又如何呢？

Anthropic开发者关系负责人Alex Albert称赞道，「非常酷！我们需要把每一款电子游戏都变成一种评估工具」。

已经有网友在评论区许愿，让Grok 3加入战场。

看来，LLM评估即将开辟一条全新的路。

相关标签：

AI 训练游戏

相关资讯

微软Muse秒生游戏登Nature，10亿级画面练出最强AI！千亿游戏市场重洗牌

微软Muse秒生游戏登Nature，10亿级画面练出最强AI！千亿游戏市场重洗牌

同一天，微软放出两个核弹，首个拓扑量子芯片，还有首个世界与人类行动模型。 AI离数秒生成游戏视频的未来，又近了一步。今天，微软团队首次引入了「世界与人类行动模型」（WHAM），并冠以希腊艺术女神「缪斯」（Muse）之名。

2/21/2025 8:44:06 AM

新智元

Claude 3.7 Sonnet游戏里贪吃蛇惊现自我意识？发现自己是代码绝望崩溃

Claude 3.7 Sonnet游戏里贪吃蛇惊现自我意识？发现自己是代码绝望崩溃

Claude 3.7 Sonnet制作的游戏中，贪吃蛇竟然出现了自我意识？刚刚，沃顿商学院教授Ethan Mollick在X上分享了自己的这个惊人发现。在提示词中，他要求模型让特殊事件更快地发生，结果，矩阵模式在0:55时触发了！

2/27/2025 9:31:05 AM

新智元

每帧都是AI实时生成的，全球首款AI游戏问世了！

每帧都是AI实时生成的，全球首款AI游戏问世了！

欢迎来到 Transformer 的世界。两个月前，我们对 AI 游戏的认知刚刚被谷歌 GameNGen 颠覆。他们实现了历史性的突破，从此不再需要游戏引擎，AI 能基于扩散模型，为玩家生成实时可玩的游戏。

11/2/2024 3:04:00 PM

机器之心

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用 OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！本地部署DeepSeek+DiFy平台构建智能体应用 OPPO 小布助手网页版上线，接入满血版 DeepSeek ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果深度学习 AI视频模态人形机器人 xAI 驾驶字节跳动文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型

顶部