让大模型直接操纵格斗游玩《街霸》里的脚色,捉对 PK,谁更能打?
GitHub 上一种你没有见过的船新 Benchmark 火了。
与 llmsys 大模型竞技场中,两个大模型分别输出答案,再由人类评分不同 —— 街霸 Bench 引入了两个 AI 之间的交互,且由游玩引擎中确定的条例评判胜败。
这种新弄法吸引了不少网友来围观。
由于项目是在 Mistral 举办的黑客马拉松活动上开发,所以开发者只使用 OpenAI 和 Mistral 系列模型进行了尝试。
排名结果也很出人意料。经过 342 场对战后,根据棋类、电竞常用的 ELO 算法得出的排行榜以下:
最新版 gpt-3.5-turbo 成绩断崖式领先,Mistral 小杯排第二。更小的模型超过了更大的如 GPT-4 和 Mistral 中杯大杯。
开发者认为,这种新式基准尝试评价的是大模型理解环境并根据特定情况采取行动的才智。
与传统的加强学习也有所不同,加强学习模型相当于根据奖励函数“盲目地”采取不同行动,但大模型完全了解自身处境并有目的的采取行动。
考验 AI 的动静计划力
AI 想在格斗游玩里称王,需要哪些硬实力呢?开发者给出几个标准:
反应要快:格斗游玩讲究及时操作,犹豫就是败北
脑子要灵:能手应该预判敌手几十步,未雨绸缪
思路要野:常规套路人人会,出奇制胜才是制胜法宝
适者生存:从失败中吸取教训并调整策略
久经考验:一局定胜败不说明问题,真正的能手能保持稳定的胜率
具体弄法以下:
每个大模型控制一个游玩脚色,程序向大模型发送屏幕画面的文本描绘,大模型根据双方血量、怒气值、地位、上一个作为、敌手的上一个作为等信息做出最优计划。
第一个挑战是定位人物在场景中的地位,通过检测像素颜色来判断。
由于目前大模型数学才智还都不太行,直接发送坐标值效果不好,最终选择了将地位信息改写成自然语言描绘。
所以对于 AI 来说,实际上他们在玩的是一种奇怪的文字冒险游玩。
再把大模型生成的作为招式映射成按键组合,就能发送给游玩模拟器执行了。
在试验中发现,大模型可以学会复杂的行为,比如仅在敌手靠近时才攻击,可能的情况下使用特殊招式,以及通过跳跃来拉开距离。
从结果上可以看出,与其他尝试方法不同,在这个条例下似乎更大的模型表现越差。
开发者对此解释到:
目标是评价大模型的及时计划才智,条例上允许 AI 提前生成 3-5 个作为,更大的模型能提前生成更多的作为,但也需要更长的时间。
在推理上的延迟差距是有意保留的,但后续或许会加入其他选项。
后续也有用户提交了流行开源模型的对战结果,在 7B 及以下量级的战斗中,还是 7B 模型排名更靠前。
从这个角度看,这种新式基准尝试为评价大模型的实用性提供了新思路。
现实世界的应用往往比聊天机器人复杂得多,需要模型具备快速理解、动静规划的本领。
正如开发者所说,想要赢,要在速度和精度之间做好权衡。
GitHub 项目:
https://github.com/OpenGenerativeAI/llm-colosseum
参考链接:
[1]https://x.com/nicolasoulianov/status/1772291483325878709
[2]https://x.com/justinlin610/status/1774117947235324087
本文来自微信公众号:量子位 (ID:QbitAI),作者:梦晨