大模型实时打《街霸》捉对 PK:GPT-4 不敌 3.5,新型 Benchmark 火了

让大模型直接操纵格斗游戏《街霸》里的角色,捉对 PK,谁更能打?GitHub 上一种你没有见过的船新 Benchmark 火了。与 llmsys 大模型竞技场中,两个大模型分别输出答案,再由人类评分不同 —— 街霸 Bench 引入了两个 AI 之间的交互,且由游戏引擎中确定的规则评判胜负。这种新玩法吸引了不少网友来围观。由于项目是在 Mistral 举办的黑客马拉松活动上开发,所以开发者只使用 OpenAI 和 Mistral 系列模型进行了测试。排名结果也很出人意料。经过 342 场对战后,根据棋类、电竞常用的

让大模型直接操纵格斗游戏《街霸》里的角色,捉对 PK,谁更能打?

GitHub 上一种你没有见过的船新 Benchmark 火了。

大模型实时打《街霸》捉对 PK:GPT-4 不敌 3.5,新型 Benchmark 火了

与 llmsys 大模型竞技场中,两个大模型分别输出答案,再由人类评分不同 —— 街霸 Bench 引入了两个 AI 之间的交互,且由游戏引擎中确定的规则评判胜负。

这种新玩法吸引了不少网友来围观。

大模型实时打《街霸》捉对 PK:GPT-4 不敌 3.5,新型 Benchmark 火了

由于项目是在 Mistral 举办的黑客马拉松活动上开发,所以开发者只使用 OpenAI 和 Mistral 系列模型进行了测试。

排名结果也很出人意料。经过 342 场对战后,根据棋类、电竞常用的 ELO 算法得出的排行榜如下:

最新版 gpt-3.5-turbo 成绩断崖式领先,Mistral 小杯排第二。更小的模型超过了更大的如 GPT-4 和 Mistral 中杯大杯。

大模型实时打《街霸》捉对 PK:GPT-4 不敌 3.5,新型 Benchmark 火了

开发者认为,这种新型基准测试评估的是大模型理解环境并根据特定情况采取行动的能力。

与传统的强化学习也有所不同,强化学习模型相当于根据奖励函数“盲目地”采取不同行动,但大模型完全了解自身处境并有目的的采取行动。

考验 AI 的动态决策力

AI 想在格斗游戏里称王,需要哪些硬实力呢?开发者给出几个标准:

反应要快:格斗游戏讲究实时操作,犹豫就是败北

脑子要灵:高手应该预判对手几十步,未雨绸缪

思路要野:常规套路人人会,出奇制胜才是制胜法宝

适者生存:从失败中吸取教训并调整策略

久经考验:一局定胜负不说明问题,真正的高手能保持稳定的胜率

大模型实时打《街霸》捉对 PK:GPT-4 不敌 3.5,新型 Benchmark 火了

具体玩法如下:

每个大模型控制一个游戏角色,程序向大模型发送屏幕画面的文本描述,大模型根据双方血量、怒气值、位置、上一个动作、对手的上一个动作等信息做出最优决策。

大模型实时打《街霸》捉对 PK:GPT-4 不敌 3.5,新型 Benchmark 火了

第一个挑战是定位人物在场景中的位置,通过检测像素颜色来判断。

大模型实时打《街霸》捉对 PK:GPT-4 不敌 3.5,新型 Benchmark 火了

由于目前大模型数学能力还都不太行,直接发送坐标值效果不好,最终选择了将位置信息改写成自然语言描述

所以对于 AI 来说,实际上他们在玩的是一种奇怪的文字冒险游戏。

大模型实时打《街霸》捉对 PK:GPT-4 不敌 3.5,新型 Benchmark 火了

把大模型生成的动作招式映射成按键组合,就能发送给游戏模拟器执行了。

大模型实时打《街霸》捉对 PK:GPT-4 不敌 3.5,新型 Benchmark 火了

在试验中发现,大模型可以学会复杂的行为,比如仅在对手靠近时才攻击可能的情况下使用特殊招式,以及通过跳跃来拉开距离

大模型实时打《街霸》捉对 PK:GPT-4 不敌 3.5,新型 Benchmark 火了

从结果上可以看出,与其他测试方法不同,在这个规则下似乎更大的模型表现越差

开发者对此解释到:

目标是评估大模型的实时决策能力,规则上允许 AI 提前生成 3-5 个动作,更大的模型能提前生成更多的动作,但也需要更长的时间。

在推理上的延迟差距是有意保留的,但后续或许会加入其他选项。

大模型实时打《街霸》捉对 PK:GPT-4 不敌 3.5,新型 Benchmark 火了

后续也有用户提交了流行开源模型的对战结果,在 7B 及以下量级的战斗中,还是 7B 模型排名更靠前。

大模型实时打《街霸》捉对 PK:GPT-4 不敌 3.5,新型 Benchmark 火了

从这个角度看,这种新型基准测试为评估大模型的实用性提供了新思路。

现实世界的应用往往比聊天机器人复杂得多,需要模型具备快速理解、动态规划的本领。

大模型实时打《街霸》捉对 PK:GPT-4 不敌 3.5,新型 Benchmark 火了

正如开发者所说,想要赢,要在速度和精度之间做好权衡

GitHub 项目:

https://github.com/OpenGenerativeAI/llm-colosseum

参考链接:

[1]https://x.com/nicolasoulianov/status/1772291483325878709

[2]https://x.com/justinlin610/status/1774117947235324087

本文来自微信公众号:量子位 (ID:QbitAI),作者:梦晨

相关资讯

小模型卷起来了:Mistral联合英伟达开源12B小模型,128k上下文

小模型,正在成为 AI 巨头的新战场。今天凌晨,OpenAI 突然发布了 GPT-4o 的迷你版本 ——GPT-4o mini。这个模型替代了原来的 GPT-3.5,作为免费模型在 ChatGPT 上提供。其 API 价格也非常美丽,每百万输入 token 仅为 15 美分,每百万输出 token 60 美分, 比之前的 SOTA 模型便宜一个数量级,比 OpenAI 此前最便宜的 GPT-3.5 Turbo 还要便宜 60% 以上。OpenAI CEO 山姆・奥特曼对此的形容是:通往智能的成本已经「too che

精准狙击Llama 3.1?Mistral AI开源Large 2,123B媲美Llama 405B

AI 竞赛正以前所未有的速度加速,继 Meta 昨天推出其新的开源 Llama 3.1 模型之后,法国 AI 初创公司 Mistral AI 也加入了竞争。刚刚,Mistral AI 宣布其旗舰开源模型的下一代产品:Mistral Large 2,该模型拥有 1230 亿个参数,在代码生成、数学、推理等方面与 OpenAI 和 Meta 的最新尖端模型不相上下。紧随 Llama 3.1 405B 之后,Mistral Large 2 的发布让开源大模型的赛道一下子热闹起来,而这一模型的特点是 ——「足够大」。具体来

Mistral AI新模型对标GPT-4,不开源且与微软合作,网友:忘了初心

「欧洲版 OpenAI」的「最强开源大模型」,被微软收编了。生成式 AI 领域,又有重量级产品出现。周一晚间,Mistral AI 正式发布了「旗舰级」大模型 Mistral Large。与此前的一系列模型不同,这次 Mistral AI 发布的版本性能更强,体量更大,直接对标 OpenAI 的 GPT-4。而新模型的出现,也伴随着公司大方向的一次转型。随着 Mistral Large 上线,Mistral AI 推出了名为 Le Chat 的聊天助手(对标 ChatGPT),任何人都可以试试效果。试用链接:,Mi