2016 年 3 月,一场机器人与围棋世界冠军、职业九段棋手李世石展开的围棋人机大战受到全球的高度关注。我们知道,最后的结果是 DeepMind 的机器人 AlphaGo 以 4 比 1 的总比分获胜。这是人工智能畛域一个里程碑性的事件,也让「博弈」成为一个热门的 AI 研究方向。
AlphaGo 之后,DeepMind 又推出了赢得国际象棋的 AlphaZero、击败《星际争霸 II》的 AlphaStar 等等。使用搜刮和进修的方法,AI 在许多完善信息博弈中表现出弱小的机能,而使用博弈论推理和进修的方法在特定的不完善信息博弈中表现出弱小的机能。
然而,大多数成功案例有一个重要的共同点:专注于单一博弈项目。例如,AlphaGo 不会下国际象棋,而 AlphaZero 虽然掌握了三种分歧的完善信息博弈,但 AlphaZero 无法玩扑克牌,也不清楚能否扩展到不完善信息博弈。此外,现有研究往往会使用特定畛域的知识和结构使 AI 实现弱小的机能。
现在,来自 Google Deepmind 的研究团队提出了一种利用自我博弈进修、搜刮和博弈论推理实现弱小博弈机能的通用进修算法 ——Student of Games(SoG)。研究论文发表在《Science Advances》上。
论文地址:https://www.science.org/doi/full/10.1126/sciadv.adg3256
SoG 算法结合了引导式搜刮(guided search)、自我棋战(self-play)进修和博弈论推理(game-theoretic reasoning)。实验结果表明,SoG 可以在大型完善和不完善信息博弈中表现出弱小的机能,这是迈向任意环境真正通用算法的重要一步。
方法简介
SoG 模型可以在分歧的游玩中自由发挥,并教会自己如何与自己的另一个版本进行对战,能够进修新方略并逐渐变得更有能力。虽然 AlphaZero 也可以适应完善信息博弈,但 SoG 可以适应完善和不完善信息博弈,从而具有更强的通用性。
SoG 采用成长树虚构遗憾最小化(growing-tree counterfactual regret minimization,GT-CFR)算法。GT-CFR 算法是一种随时可以进行局部搜刮,非均匀地构建子博弈,并将树扩展至最相关的未来状态,同时可以迭代地细化价值与方略。
此外,SoG 还采用了有效的自我棋战:利用博弈结果和递归子搜刮来训练价值与方略搜集,并应用于之前搜刮中出现过的情况。
SoG 算法通过声音自我棋战来训练智能体:每个玩家在面临决策时,使用配备虚构价值与方略搜集(Counterfactual Value-and-Policy Network,CVPN)的声音 GT-CFR 搜刮来生成当前状态的方略,并根据该方略采取行动。
自我棋战过程会生成两种类型的训练数据,用于更新价值与方略搜集,一种是搜刮查询,一种是完整博弈轨迹。在实际应用中,自我棋战数据生成和训练是并行发生的:参与者生成自我棋战数据(并解决查询);训练者进修新搜集并定期更新参与者。
实验结果
众所周知,传统搜刮在不完善信息博弈中存在缺陷,并且评估集中在单一畛域(如扑克牌),SoG 填补了这一空白。通过重新解决子博弈,SoG 保证可以找到近似纳什均衡,并且在小型博弈中保证可计算性。
具体来说,SoG 在四种分歧的游玩中揭示了弱小的机能:两种完善信息博弈(国际象棋和围棋)和两种不完善信息博弈(扑克和 Scotland Yard)。值得注意的是,与扑克相比,Scotland Yard 的搜刮范围和游玩长度要长得多,需要长期规划。
SoG 与 AlphaZero 一样,利用最少的畛域知识,将搜刮与自我棋战相结合。与 MCTS 分歧,SoG 的搜刮算法基于虚构遗憾最小化,对完善和不完善信息博弈都是有效的。
下图揭示了 SoG 在分歧数量 GT-CFR 下的可利用性。
A 表为 Leduc 扑克,B 表为苏格兰场
下图揭示了 SoG 随着神经搜集评估次数的增加与 AlphaZero 可扩展性的比较,测量方式为相对 Elo 评分尺度。
A 表为国际象棋,B 表为围棋
参考链接:https://www.newscientist.com/article/2402645-game-playing-deepmind-ai-can-beat-top-humans-at-chess-go-and-poker/