GPT-4o 能玩《黑神话:悟空》:精英怪胜率超人类,无强化学习纯大模型方案

AI 玩黑神话,第一个精英怪牯护院轻松拿捏啊。有方向感,视角也没有问题。躲闪劈棍很丝滑。甚至在打鸦香客和牯护院时,AI 的胜率已经超过人类。而且是完全使用大模型玩,没有使用强化学习。阿里巴巴的研究人员们提出了一个新型 VARP(视觉动作角色扮演)智能体框架。它能直接将游戏截图作为输入,通过视觉语言模型推理,最终生成 Python 代码形式的动作,以此来操作游戏。以玩《黑神话・悟空》为例,该智能体在 90% 简单和中等水平战斗场景中取胜。GPT-4o、Claude 3.5 都来迎战研究人员以《黑神话・悟空》为研究平台

AI 玩黑神话,第一个精英怪牯护院轻松拿捏啊。

GPT-4o 能玩《黑神话:悟空》:精英怪胜率超人类,无强化学习纯大模型方案

有方向感,视角也没有问题。

GPT-4o 能玩《黑神话:悟空》:精英怪胜率超人类,无强化学习纯大模型方案

躲闪劈棍很丝滑。

GPT-4o 能玩《黑神话:悟空》:精英怪胜率超人类,无强化学习纯大模型方案

甚至在打鸦香客和牯护院时,AI 的胜率已经超过人类。

GPT-4o 能玩《黑神话:悟空》:精英怪胜率超人类,无强化学习纯大模型方案

而且是完全使用大模型玩,没有使用强化学习

阿里巴巴的研究人员们提出了一个新型 VARP(视觉动作角色扮演)智能体框架。它能直接将游戏截图作为输入,通过视觉语言模型推理,最终生成 Python 代码形式的动作,以此来操作游戏。

以玩《黑神话・悟空》为例,该智能体在 90% 简单和中等水平战斗场景中取胜。

GPT-4o、Claude 3.5 都来迎战

研究人员以《黑神话・悟空》为研究平台,一共定义了 12 个任务,75% 与战斗有关。

GPT-4o 能玩《黑神话:悟空》:精英怪胜率超人类,无强化学习纯大模型方案

他们构建了一个人类操作数据集,包含键鼠操作和游戏截图,一共 1000 条有效数据。

每个操作都是由原子命令的各种组合组成的序列。原子命令包括轻攻、闪避、重攻击、回血等。

GPT-4o 能玩《黑神话:悟空》:精英怪胜率超人类,无强化学习纯大模型方案

然后,他们提出了 VARP 智能体框架。主要包含动作规划系统和人类引导轨迹系统。

其中动作规划系统由情境库、动作库和人类引导库组成,利用 VLMs 进行动作推理和生成,引入分解特定任务的辅助模块和自我优化的动作生成模块。

人类引导轨迹系统利用人类操作数据改进智能体性能,对于困难任务,通过查询人类引导库获取相似截图和操作,生成新的人类引导动作。

GPT-4o 能玩《黑神话:悟空》:精英怪胜率超人类,无强化学习纯大模型方案

同时 VARP 还包含 3 个库:情景库、动作库和人工引导库。这些库中存储了 agent 自我学习和人类指导的内容,可以进行检索和更新。

动作库中,“def new_func_a ()”表示动作计划系统生成的新动作,“def new_func_h ()”表示人导轨迹系统生成的动作。“def pre_func ()”代表预定义的动作。

动作案例研究和相应的游戏截图。第一行和第二行中的操作是预定义的函数。第三行动作由人工制导轨迹系统生成。

SOAG 会在玩家角色与敌人的每次战斗互动后总结第四行和第五行中的新动作,并将其存储在动作库中。

GPT-4o 能玩《黑神话:悟空》:精英怪胜率超人类,无强化学习纯大模型方案

框架分别使用了 GPT-4o(2024-0513 版本)、Claude 3.5 Sonnet 和 Gemini 1.5 Pro

对比人类和 AI 的表现结果,可以看到小怪部分 AI 们的表现达到人类玩家水平。

到了牯护院时,Claude 3.5 Sonnet 败下阵来,GPT-4o 胜率最高。

但是对于新手玩家普遍头疼的幽魂,AI 们也都束手无策了。

GPT-4o 能玩《黑神话:悟空》:精英怪胜率超人类,无强化学习纯大模型方案

另外研究还提到,由于 VLMs 推理速度受到限制,是无法实时输入每一帧画面的。它只能间隔输入关键帧,这也会导致 AI 在一些情况下错过 boss 攻击的关键信息。

以及由于游戏中没有明确的道路引导且存在很多空气墙,在没有人类引导下,智能体也不能自已找到正确的路线

如上研究来自阿里团队,一共有 5 位作者。

GPT-4o 能玩《黑神话:悟空》:精英怪胜率超人类,无强化学习纯大模型方案

后续相关代码和数据集有发布计划,感兴趣的童鞋可以蹲下。

One More Thing

AI 打游戏并不是一个新鲜事了,比如 AI 基于强化学习方法打《星际争霸 II》已经可以击败人类职业高手。

利用强化学习方案,往往需要输入大量对局。商汤此前训练的 DI-star(监督学习 + 强化学习),就用了“16 万场录像”和“1 亿局对战”。

但是纯大模型也能打游戏,还是很出乎意料的。在本项研究中,数据集中的有效数据为 1000 条。

论文地址:

https://arxiv.org/abs/2409.12889

项目地址:

https://varp-agent.github.io/

本文来自微信公众号:微信公众号(ID:QbitAI),作者:小明,原标题《GPT-4o 能玩《黑神话》!精英怪胜率超人类,无强化学习纯大模型方案》

相关资讯

“HumanPlus”机器人问世:可模仿人类动作弹钢琴、叠衣服,基于中国公司平台

斯坦福大学研究人员近日研发了一款仿人机器人 HumanPlus,它可以模仿人类的行为,并支持模仿动作来进行学习。据介绍,它可以通过模仿人类动作来学习弹钢琴、回击乒乓球、折叠衣服等。斯坦福大学团队成员傅子鹏(音译)表示,该类人机器人使用单个 RGB 摄像头和全身策略来复制人类动作。值得一提的是,傅子鹏 14 日在其个人 YouTube 频道上发布了 HumanPlus 的数个演示视频,展示了其诸多方面的“学习能力”。 研究人员表示,HumanPlus 需要约 40 小时的人类运动数据来学习一项任务,然后逐步执行。此

ICCV 2023 | 重塑人体动作生成,融合扩散模型与检索策略的新范式ReMoDiffuse来了

来自南洋理工大学和商汤科技的研究者联合提出了一种全新的文本驱动动作生成框架——ReMoDiffuse。

FG2024Workshop |花样滑冰人体动作识别挑战赛与研讨会启动!

作为计算机视觉的国际重要会议之一,CCF C类国际会议FG 2024 (International Conference on Automatic Face and Gesture Recognition)将于2024年5月28-31日举办。花样滑冰人体动作识别挑战赛将作为花样滑冰人体动作识别研讨会的一部分与FG2024一起举办。背景计算机视觉中的人体行为理解主要关注于在视频中定位、分类和评估人类行为。然而,目前的任务对于细粒度动作分割和评估等实际应用来说是不足够的。为了解决这个问题,我们构建了一个数据集Skati