狂揽4k star，AI通过强化进修玩宝可梦，两万场后成功拿下

AI 的宝可梦之旅。是不是说起「口袋妖怪」，你就不困了？「口袋妖怪」是「宝可梦」的非官方译名。从 1996 年至今，它可以被分为数个世代，成为很多玩家心中的经典之作。游玩画风简单，但是身为策略游玩，其中包含的角色、属性、战术、体系等让这个游玩入门容易精通难。如果训练 AI 来玩宝可梦，你觉得它的实力如何？推特用户 @computerender 用强化进修训练 AI 玩起了宝可梦。他也通过视频纪录了这一历程，不仅生动地展示了训练历程，还详尽地引见了其中的步骤。项目地址：：，就能观看两万场 AI 玩的《宝可梦・红》。一

AI 的宝可梦之旅。

是不是说起「口袋妖怪」，你就不困了？

「口袋妖怪」是「宝可梦」的非官方译名。从 1996 年至今，它可以被分为数个世代，成为很多玩家心中的经典之作。游玩画风简单，但是身为策略游玩，其中包含的角色、属性、战术、体系等让这个游玩入门容易精通难。

如果训练 AI 来玩宝可梦，你觉得它的实力如何？

推特用户 @computerender 用强化进修训练 AI 玩起了宝可梦。他也通过视频纪录了这一历程，不仅生动地展示了训练历程，还详尽地引见了其中的步骤。

狂揽4k star，AI通过强化进修玩宝可梦，两万场后成功拿下

项目地址：https://github.com/PWhiddy/PokemonRedExperiments

视频地址：https://www.youtube.com/watch?v=DcYLT37ImBY

当你打开视频，就能观看两万场 AI 玩的《宝可梦・红》。一开始，AI 不任何的知识和经验，只能够随机按下按钮。但在五年的模拟游玩时间里，它在经历中习得了更多能力。最终，AI 能够抓住宝可梦，进化它们，并击败了健身房的领导者。

那么这是怎么做到的呢？

最基础的目标是让 AI 去探索地图。作家所使用的步骤是在 AI 到达新位置时给予嘉奖。

狂揽4k star，AI通过强化进修玩宝可梦，两万场后成功拿下

作家纪录 AI 在玩游玩时看到的每个屏幕并将当前屏幕与纪录中的所有屏幕进行比较，看看是否有接近的匹配。如果不找到匹配，这意味着 AI 发明了一些新东西。在此状况下，作家将给它一个嘉奖，并将新屏幕添加到纪录中。独特屏幕带来的嘉奖可以鼓励它继续寻找游玩的新部分。

狂揽4k star，AI通过强化进修玩宝可梦，两万场后成功拿下

经过几次迭代之后，AI 能更快的走出初始房间。但在这历程中，作家发明了随着探索越来越多，AI 却会被「困」在某处。这是因为该场景中有草、水、随意走动的 NPC，这会更容易触发新场景产生。作家通过改变画面差异的像素阈值来进行改观。

除此之外，AI 还遇到了战争画面大致相同，没法得到嘉奖而逃离的举动。但是不战争，就没法前进。最后，作家通过增长额外嘉奖来保持 AI 的前进。

狂揽4k star，AI通过强化进修玩宝可梦，两万场后成功拿下

战争画面相似性较高狂揽4k star，AI通过强化进修玩宝可梦，两万场后成功拿下增长额外关卡嘉奖

当然，AI 在这个历程中遇到的问题远多于此。

当宝可梦战争的时间很长，其默认行动被耗尽时，它似乎会卡住，在多次训练迭代之后，才有了实质性的改观。作家发明，在看到一只鸽子第一次参与进来后，它终于知道当一个移动耗尽时该做什么，并能够切换到另一个替代移动。

狂揽4k star，AI通过强化进修玩宝可梦，两万场后成功拿下

就当一切顺利时，作家发明了一个关键问题。AI 会直接投入战争，即使是那些它没法获胜的战争。并且，它从不去宝可梦中间治疗，这意味着当它输了，它会一直回到游玩的开始。

狂揽4k star，AI通过强化进修玩宝可梦，两万场后成功拿下

作家试图使用输掉战争就减去嘉奖来改观，但是不效果。当 AI 即将失败时，它不避免艰难的战争，而是拒绝按下按钮继续无限期地拖延。这在技术上满足了目标，但不是作家想要的。

作家在细致地观察后发明，在一些罕见的状况下会造成巨大的嘉奖减扣。一直以来，AI 都会在一场游玩中扣除比预期多 10 倍的嘉奖。作家在回顾时发明，AI 宝可梦中间，在角落里的电脑前徘徊。登录并漫无目的地按了一会儿按钮后，它将一只宝可梦存入了系统，随即大量嘉奖就流失了。这是因为嘉奖是根据宝可梦的等级总和分配的。因此，存入一只 13 级的宝可梦就会立即损失 13 分。这会发出强烈的负面信号，给 AI 造成类似创伤的体验。AI 不像人类那样有情感，但一个具有极端嘉奖价值的事件仍会对它的举动产生持久的影响。在这种状况下，仅仅失去一次宝可梦就足以让 AI 对整个宝可梦中间形成负面联想，从而在今后的游玩中完全避开它。为了解决这个问题，作家再次修改嘉奖函数，只有当等级增长时才给予嘉奖。这似乎解决了问题。重新启动训练后，AI 开始访问宝可梦中间。

狂揽4k star，AI通过强化进修玩宝可梦，两万场后成功拿下

当它到达了宝可梦中间内的月亮山入口。在这里，一个男人会以 500 元的价格卖给你一条邪术鲤鱼。邪术鲤鱼在短期内一点帮助都不，所以你可能会认为 AI 不会对此感兴趣。然而，购买它是获得 5 级的超级简单步骤。所以 AI 每次都买。在所有的游玩中，它总共购买了超过 10000 个邪术碳水化合物。

狂揽4k star，AI通过强化进修玩宝可梦，两万场后成功拿下作家将 AI 举动与人类类比

作家还分析了 AI 的行动路线，它似乎更喜好在地图的几乎所有边沿逆时针行走。这意味着，当站在右边的边沿时，它更喜好往上走，蓝色显示的就是这种状况。当上方有边沿时，它喜好往左走，显示为粉红色。当左边有边沿时，它喜好向下走，用橙色表示。而当下面有一条边时，它更喜好向右走，显示为绿色。

狂揽4k star，AI通过强化进修玩宝可梦，两万场后成功拿下

作家在视频中表明，机器进修的基本挑战是在不明确告诉程序如何做的状况下让它做一些事情。这意味着，如果你的模型不按照你预期的方式运行，你必须弄清楚如何通过进修算法或在线训练数据间接地改观它。强化进修增长了一层间接性。在此基础上，输入模型的训练数据不再是静止的、受你控制的，而是模型在早期时间点举动的产物。这种反馈循环会导致没法预测的突发举动。

狂揽4k star，AI通过强化进修玩宝可梦，两万场后成功拿下

在不机构规模的资源时，作家建议你可以这么做：

将问题简化，以避免工具、资源的限制。

接下来，在合理的时间和成本内迭代实验的设置非常重要。

然后需要仔细考虑 AI 如何与环境交互以及嘉奖函数如何设计。在视频中，作家对他所用到的嘉奖函数已经有所引见，但是受制于篇幅，并不引见全部。它使用到了至关重要的七个函数，实际上还有更多的并不测试或是最终使用。

通过可视化的步骤了解 AI 的举动。

狂揽4k star，AI通过强化进修玩宝可梦，两万场后成功拿下

作家说道，在未来还可能应用迁移进修的步骤。即在一个大型的广泛数据集上预先训练一个模型，然后可以非常有效地利用它来完成新任务。在过去，这已经给计算机视觉和自然语言处理领域带来了革命性的变化。在将其应用于 RL 方面，已经有一些有趣的早期工作，但尚未真正落地。这是由于这些类型的任务缺乏大型的多样化数据集。

狂揽4k star，AI通过强化进修玩宝可梦，两万场后成功拿下