Claude 3.7硬控马里奥90秒,GPT-4o开局暴毙!Karpathy直呼基准失效,游戏成LLM新战场

LLM评估基准的「黄金标准」,正在失效? 一大早,AI大神Karpathy发出质疑,「目前存在一种评估危机,我真的不知道现在该看哪些指标了」。 诸如MMLU、SWE-Bench Verified、Chatbot Arena等这些基准,各有自己的优劣之处。

LLM评估基准的「黄金标准」,正在失效?

一大早,AI大神Karpathy发出质疑,「目前存在一种评估危机,我真的不知道现在该看哪些指标了」。

图片

诸如MMLU、SWE-Bench Verified、Chatbot Arena等这些基准,各有自己的优劣之处。

如果这些都不够,那么游戏算不算?

毕竟,曾经红极一时的AlphaGo是围棋界的头号AI;就连OpenAI也早年涉足游戏领域,拿着自研AI在DOTA国际赛中取得亮眼的成绩。

最近,Claude 3.7的出世,让「宝可梦」一时间成为LLM评判的新标杆。

UCSD Hao AI Lab再次出手,开源了一种全新的「游戏智能体」,能够实时让计算机使用智能体(CUA)运行解谜、益智等类型的游戏。

Claude 3.7硬控马里奥90秒,GPT-4o开局暴毙!Karpathy直呼基准失效,游戏成LLM新战场

结果显示,Claude 3.7 Sonnet玩超级马里奥足足撑满90s,直接碾压了OpenAI、Gemini和自家前辈;而GPT-4o一上来就直接挂掉了……

谷歌选手Gemini 1.5 Pro首战即败,而且非常有规律地两步一跳。到了Gemini 2.0虽多走了几步,最终还是栽坑。

图片

GamingAgent项目代码已开源,下载安装即可观战AI游戏大PK。

图片

开源地址:https://github.com/lmgame-org/GamingAgent

Claude 3.7硬控马里奥90秒,GPT-4o开局暴毙!Karpathy直呼基准失效,游戏成LLM新战场

「游戏智能体」演示demo

GPT-4.5反应迟钝,GPT-4o永远被第一个小怪杀死

GPT-4o总是被第一个小怪杀死,像极了操作很烂会被队友喷的游戏菜鸡。

短短20s,游戏就结束了。

图片

相比之下,GPT-4.5的表现就好多了,起码没卡在第一个小怪。

图片

但它的反应还是很迟缓,几乎是两步一停。

跳过一个矮水管之前,也要犹豫片刻,感觉像是刚学会了游戏操作,还在蹒跚学步。

图片

一个稍高点的水管,尝试了7次,足足花了10s才跳了过去。

图片

好不容易跳了过去,就撞到小怪死掉了。第一回合就这样告终了。

图片

更好笑的是,第二回合的时候,GPT-4.5又栽倒在了第一个小怪那里。毕竟和GPT-4o同属于OpenAI家族,操作都比较菜(bushi)。

图片

第三回合表现也比较一般,还不如第一回合。第一个矮水管就卡了半天,搁水管底下卡了快10s才想起来跳。

图片

最后虽然丝滑地跳过了第二个水管,但还是被小怪杀死了,还没有第一回合走得远。第一回合起码跳过了第三个水管,虽说刚跳过就被杀了。

图片

Claude 3.7硬控马里奥90秒,GPT-4o开局暴毙!Karpathy直呼基准失效,游戏成LLM新战场

GPT-4.5完整视频

Gemini 1.5两步一跳,2.0栽进坑里

到了谷歌这边,Gemini 1.5 Pro首战也不如意,没能逃过第一个小怪的魔爪。

图片

第二回合Gemini 1.5算是躲过了第一个小怪,甚至还碰到了问号箱,吃到了蘑菇。

图片

有趣的是,和GPT-4.5两步一停不同,Gemini 1.5是「两步一跳」。

走了这么一小段路,一共就跳了9回。地板上也跳一跳,水管上也跳一跳。

图片

最后也是跳过了第三根水管,甚至差点跳过了第四个,算是走得比GPT-4.5要远。

图片

至于更新的Gemini 2.0 Flash,表现上不出意外地要好得多。

首先,跳得更大胆;其次,跳得也更流畅。

跳到了「前人」未曾涉足的更高的平台上,而且10s就轻松跳过了前面三个水管。

图片

虽然第二回合的时候也惨遭第一个小怪的毒手。

图片

但最后走得比OpenAI家族和Gemini 1.5都远——跳过了第四根水管,栽倒在了一个没能跳过去的坑中。

图片

Claude 3.7硬控马里奥90秒,GPT-4o开局暴毙!Karpathy直呼基准失效,游戏成LLM新战场

Gemini 2.0 Flash完整视频

Claude 3.7 Sonnet发现隐藏奖励

相比之下,Anthropic的Claude,就要惊艳多了。

图片

相比于Gemini两步一跳的操作,Claude 3.7的操作更加丝滑,走得也远很多。

尤其是在跳跃的时机上,显得更有章法,碰到水管、碰到坑才会跳。

图片

此外,还会有意识地通过跳跃来躲避小怪。

图片

跳过了Gemini 2.0 Flash两回合都没跳过去的坑,Claude操作下的马里奥终于是吃到了金币;终于是碰到了除了哥布林(形似蘑菇)之外的小怪——库巴(形似乌龟);甚至还碰出了隐藏奖励——超级星星。

图片

最后是掉到了阶梯平台之间的坑里,结束了游戏。

图片

AI大战2048益智游戏,GPT-4o拿不出手

接下来,再看一个益智类的游戏2048。

可能很多人对这款游戏并不熟悉,规则是通过滑动进行拼图,玩家将带有相同数字的方块合并,达到可能最高的数值。

GPT-4o在挑战过程中,因为思考过久,陷入困境。

而Claude 3.7虽多走了几步,比GPT-4o强不少,但最终还是以失败告终。

图片

俄罗斯方块,智商在线

那么Claude 3.7玩俄罗斯方块的表现,又如何呢?

Anthropic开发者关系负责人Alex Albert称赞道,「非常酷!我们需要把每一款电子游戏都变成一种评估工具」。

图片

已经有网友在评论区许愿,让Grok 3加入战场。

看来,LLM评估即将开辟一条全新的路。

相关资讯

微软Muse秒生游戏登Nature,10亿级画面练出最强AI!千亿游戏市场重洗牌

同一天,微软放出两个核弹,首个拓扑量子芯片,还有首个世界与人类行动模型。 AI离数秒生成游戏视频的未来,又近了一步。 今天,微软团队首次引入了「世界与人类行动模型」(WHAM),并冠以希腊艺术女神「缪斯」(Muse)之名。

Claude 3.7 Sonnet游戏里贪吃蛇惊现自我意识?发现自己是代码绝望崩溃

Claude 3.7 Sonnet制作的游戏中,贪吃蛇竟然出现了自我意识? 刚刚,沃顿商学院教授Ethan Mollick在X上分享了自己的这个惊人发现。 在提示词中,他要求模型让特殊事件更快地发生,结果,矩阵模式在0:55时触发了!

每帧都是AI实时生成的,全球首款AI游戏问世了!

欢迎来到 Transformer 的世界。 两个月前,我们对 AI 游戏的认知刚刚被谷歌 GameNGen 颠覆。 他们实现了历史性的突破,从此不再需要游戏引擎,AI 能基于扩散模型,为玩家生成实时可玩的游戏。