玩转围棋、国际象棋、扑克，DeepMind推出通用进修算法SoG

2016 年 3 月，一场机器人与围棋世界冠军、职业九段棋手李世石展开的围棋人机大战受到全球的高度关注。我们知道，最后的结果是 DeepMind 的机器人 AlphaGo 以 4 比 1 的总比分获胜。这是人工智能畛域一个里程碑性的事件，也让「博弈」成为一个热门的 AI 研究方向。AlphaGo 之后，DeepMind 又推出了赢得国际象棋的 AlphaZero、击败《星际争霸 II》的 AlphaStar 等等。使用搜刮和进修的方法，AI 在许多完善信息博弈中表现出弱小的机能，而使用博弈论推理和进修的方法在特定的

2016 年 3 月，一场机器人与围棋世界冠军、职业九段棋手李世石展开的围棋人机大战受到全球的高度关注。我们知道，最后的结果是 DeepMind 的机器人 AlphaGo 以 4 比 1 的总比分获胜。这是人工智能畛域一个里程碑性的事件，也让「博弈」成为一个热门的 AI 研究方向。

AlphaGo 之后，DeepMind 又推出了赢得国际象棋的 AlphaZero、击败《星际争霸 II》的 AlphaStar 等等。使用搜刮和进修的方法，AI 在许多完善信息博弈中表现出弱小的机能，而使用博弈论推理和进修的方法在特定的不完善信息博弈中表现出弱小的机能。

然而，大多数成功案例有一个重要的共同点：专注于单一博弈项目。例如，AlphaGo 不会下国际象棋，而 AlphaZero 虽然掌握了三种分歧的完善信息博弈，但 AlphaZero 无法玩扑克牌，也不清楚能否扩展到不完善信息博弈。此外，现有研究往往会使用特定畛域的知识和结构使 AI 实现弱小的机能。

现在，来自 Google Deepmind 的研究团队提出了一种利用自我博弈进修、搜刮和博弈论推理实现弱小博弈机能的通用进修算法 ——Student of Games（SoG）。研究论文发表在《Science Advances》上。

玩转围棋、国际象棋、扑克，DeepMind推出通用进修算法SoG

论文地址：https://www.science.org/doi/full/10.1126/sciadv.adg3256

SoG 算法结合了引导式搜刮（guided search）、自我棋战（self-play）进修和博弈论推理（game-theoretic reasoning）。实验结果表明，SoG 可以在大型完善和不完善信息博弈中表现出弱小的机能，这是迈向任意环境真正通用算法的重要一步。

方法简介

SoG 模型可以在分歧的游玩中自由发挥，并教会自己如何与自己的另一个版本进行对战，能够进修新方略并逐渐变得更有能力。虽然 AlphaZero 也可以适应完善信息博弈，但 SoG 可以适应完善和不完善信息博弈，从而具有更强的通用性。

SoG 采用成长树虚构遗憾最小化（growing-tree counterfactual regret minimization，GT-CFR）算法。GT-CFR 算法是一种随时可以进行局部搜刮，非均匀地构建子博弈，并将树扩展至最相关的未来状态，同时可以迭代地细化价值与方略。

玩转围棋、国际象棋、扑克，DeepMind推出通用进修算法SoG

此外，SoG 还采用了有效的自我棋战：利用博弈结果和递归子搜刮来训练价值与方略搜集，并应用于之前搜刮中出现过的情况。

SoG 算法通过声音自我棋战来训练智能体：每个玩家在面临决策时，使用配备虚构价值与方略搜集（Counterfactual Value-and-Policy Network，CVPN）的声音 GT-CFR 搜刮来生成当前状态的方略，并根据该方略采取行动。

玩转围棋、国际象棋、扑克，DeepMind推出通用进修算法SoG

自我棋战过程会生成两种类型的训练数据，用于更新价值与方略搜集，一种是搜刮查询，一种是完整博弈轨迹。在实际应用中，自我棋战数据生成和训练是并行发生的：参与者生成自我棋战数据（并解决查询）；训练者进修新搜集并定期更新参与者。

实验结果

众所周知，传统搜刮在不完善信息博弈中存在缺陷，并且评估集中在单一畛域（如扑克牌），SoG 填补了这一空白。通过重新解决子博弈，SoG 保证可以找到近似纳什均衡，并且在小型博弈中保证可计算性。

具体来说，SoG 在四种分歧的游玩中揭示了弱小的机能：两种完善信息博弈（国际象棋和围棋）和两种不完善信息博弈（扑克和 Scotland Yard）。值得注意的是，与扑克相比，Scotland Yard 的搜刮范围和游玩长度要长得多，需要长期规划。

SoG 与 AlphaZero 一样，利用最少的畛域知识，将搜刮与自我棋战相结合。与 MCTS 分歧，SoG 的搜刮算法基于虚构遗憾最小化，对完善和不完善信息博弈都是有效的。

下图揭示了 SoG 在分歧数量 GT-CFR 下的可利用性。

玩转围棋、国际象棋、扑克，DeepMind推出通用进修算法SoG

A 表为 Leduc 扑克，B 表为苏格兰场

下图揭示了 SoG 随着神经搜集评估次数的增加与 AlphaZero 可扩展性的比较，测量方式为相对 Elo 评分尺度。

玩转围棋、国际象棋、扑克，DeepMind推出通用进修算法SoG

A 表为国际象棋，B 表为围棋

参考链接：https://www.newscientist.com/article/2402645-game-playing-deepmind-ai-can-beat-top-humans-at-chess-go-and-poker/

{{userData.name}}已认证

玩转围棋、国际象棋、扑克，DeepMind推出通用进修算法SoG

GPT、Llama等大模型存在「恶化咒骂」，这个bug该如何缓解？

13B模型全方位碾压GPT-4？这背后有什么猫腻

刚刚，AI颠覆物理模拟：一句话精准仿真，学术圈半壁江山联手耗时24个月研究成果

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

2024年AI 编程现在可以做到什么程度？

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

腾讯云 ES：一站式 RAG 方案，开启智能搜索新时代

抢跑OpenAI！谷歌Gemini 2.0震撼登场：全面转向Agent，多模态输入输出，免费随便玩