近日,腾讯 AI Lab 的游玩 AI 团队宣布了其计划智能 AI "绝悟" 在《星际争霸 2》中的最新钻研进展,提出一种创新的训练办法显著晋升了 AI 的局内计谋应变能力,使其在考虑了 APM 公平的对战环境中,与 3 位国内顶尖的神族职业选手各进行多达 20 局神族 vs 神族的对战,稳定地保持 50% 及以上的胜率。该成果已获 NeurIPS 2023 Spotlight 论文收录。
实时计谋游玩(RTS)以其庞杂的游玩环境更贴近现实世界,一直是 AI 钻研的焦点和挑战所在。《星际争霸 2》作为其中极具代表性的游玩,因其对资源收集、战术规划和敌手分析的高实时要求,已成为业内广泛用于训练和验证 AI 计划能力的理想平台。早在 2018 年,腾讯 AI Lab 研发的 AI 就已击败游玩内最高难度的 AI。
业界的同盟训练办法(League)虽然在星际 AI 强度上取得了突破性进展,但其中在 AI 局内计谋应变能力以及训练效率存在不足。针对这些问题,腾讯 AI Lab 研发了新的算法进行改进,一方面提出了一种鉴于目标条件的强化进修(Goal-Conditioned RL)办法来训练应用者(Exploiter),使应用者在有限资源下能够高效索求多样计谋并击败同盟中的其他智能体(Agent);另一方面通过引入敌手建模机制,有效晋升了智能体面对分歧敌手战术的应变能力。
论文链接:https://openreview.net/pdf?id=tDAu3FPJn9
这项钻研有助于推进 AI 智能化,增强 AI 应对庞杂问题的泛化能力。在从 MOBA 到足球、RTS,再到 3D 开放世界游玩(如 Minecraft)等多样化游玩环境,“绝悟” 持续展现了其计划能力的晋升。展望未来,计划智能 AI 将能更好地适应人类的真实需求,解决现实世界的庞杂问题。
鉴于目标条件的强化进修晋升应用者训练效果
应用者(Exploiter)是同盟训练中的重要角色,用于发现同盟中其他智能体的弱点,以丰富其他智能体陪练的敌手池计谋,为晋升智能体计谋应变能力提供基础环境。
在经典的星际 AI 同盟训练框架中,应用者并没有具体的目标计谋指导,而是通过不断的随机索求来识别主智能体(Main Agent)和整个同盟的弱点。然而,考虑到《星际争霸 2》计谋空间的庞大和庞杂性,这种办法可能导致资源浪费和训练低效。
为了在有限的计算资源下晋升应用者的进修效果,本钻研提出了一种新颖的鉴于目标条件的强化进修训练办法。该办法让应用者能够自动挑选有 “潜力” 的微观计谋,并在相应微观计谋条件下进行训练,发现同盟其他智能体的弱点。
图 1: 鉴于 goal-conditioned rl 的 exploiter 训练示意图
如图 1 所示,新办法通过评估主智能体在分歧微观计谋条件下的胜率和执行偏差,来指导应用者的计谋选择。从主智能体的高胜率微观计谋中采样的应用者被称为应用型应用者(Exploitative Exploiter),它的特点在于参数会重置为当前主智能体的参数,应用主智能体在该微观计谋下的高胜率能力,通过强化进修进一步提高微操技能,以击败其他智能体。同时,为了晋升同盟中能够执行的微观计谋多样性,钻研团队引入了索求型应用者(Explorative Exploiter)。索求型应用者专注于进修主智能体在执行上存在大偏差的微观计谋,以充分挖掘这类微观计谋的价值。在训练过程中,新办法除了将索求型应用者的参数重置为监督进修模型的参数外,还引入了课程进修机制和目标计谋引导损失函数,以帮助其有效进修主智能体难以掌握的微观计谋。
鉴于敌手建模晋升 AI 局内计谋应变能力
局内计谋应变能力在《星际争霸 2》中至关重要,同时也是 AI 钻研的一大挑战。这一能力指的是 AI 根据敌手的实时计谋做出合理的自身计谋调整。其难点在于 AI 需要在不完全的信息环境中快速准确地解读和预测敌手的计谋,这不仅需要对庞杂场景信息做高度抽象,还对预测能力有很高的要求。
本钻研鉴于敌手建模的理念,增加了一个辅助任务网络,专门用于估计敌手的计谋,并将这些信息的隐空间表达应用于主网络的计谋调整进修。
图 2: 敌手建模办法示意图
具体的敌手建模办法如图 2 所示,由于游玩存在 “战争迷雾” 机制,整体的网络结构建模按照 VAE 的架构设计。输入为当前观测到的敌手信息,应用 LSTM 处理时序信息,预测关键的敌手计谋内容,例如分歧兵种和建筑的数量,以及分歧科技的升级情况。下面公式中 yt 表示 t 时刻敌手的计谋,Ot 表示 t 时刻观测到的敌手信息,例如观测到的敌手分歧兵种和建筑数量,自身的视野信息等。整个网络参数鉴于人类数据进行训练优化。
为了进一步晋升效果,文章还提出了一种鉴于敌手计谋估计输出计算的 “侦探” reward,鼓励 AI 通过有效的侦探,更全面地掌握敌手计谋的信息。这一设计能降低敌手计谋估计输出的交叉熵,从而提高 AI 预估的正确性。
实验结果
为了验证新训练算法 ROA-Star 的计谋应变能力,钻研团队邀请了国内 3 位顶尖的神族职业选手对神族 AI 进行全面测试。与过往钻研中通常只进行少量对局的做法分歧,本次测试中 AI 与每位职业选手进行了多达 20 局的对战,以观察局数增加对胜率波动的影响。结果显示,AI 在所有测试中均能保持 50% 及以上的胜率,表明 AI 具备稳定的计谋适应性。同时,AI 的瞬间 APM 被限制低于 800,平均 APM 低于 250,且职业选手有充分的休息时间,确保了对战的公平性。图 3 展示了 AI 的平均胜率随着对局数目的变化情况。
图 3: 与 3 位顶尖神族职业选手测试过程中 AI 的平均胜率随着对局数目的变化
此外,钻研团队采用相同的硬件资源,鉴于经典的同盟基线算法以及自研的新算法分别训练了 10 天的时间。通过将两个实验中所有智能体对战 100 局,并根据对战胜率统计了的 Elo 曲线,如图 4 所示。Elo 曲线清晰地显示了 ROA-Star 算法的有效性,主智能体的强度晋升速度明显更快。同时,新提出的应用型应用者和索求型应用者的强度也能持续跟上主智能体,为主智能体提供了丰富的匹配其强度的敌手池,有利于晋升其计谋的鲁棒性。
图 4: 基线算法和自研算法训练过程中分歧类型 agent 的 Elo 分变化
为进一步索求敌手建模对于 AI 计谋鲁棒性和局内应变能力的影响,钻研团队还进行了消融实验。实验对基线算法和增加敌手建模特性的新算法分别训练了 5 天,随后将训练得到的主智能体分别与 4 个具有分歧微观计谋的 AI 进行了 100 局对战。如图 5 和表 1 所示,增加敌手建模特性的新算法,能够根据敌手的分歧计谋调整自身计谋,显著晋升了相应的胜率。
图 5: 基线算法和增加敌手建模特性算法在应对分歧计谋时采用的计谋统计图
表 1: 基线算法和增加敌手建模特性算法对战分歧敌手微观计谋时的胜率
总结来说,计划智能 AI 正在朝着管理更多智能体、应对更庞杂环境、增强协作能力的方向发展。本钻研创新性地改进了星际 AI 钻研办法 ,有效晋升了 AI 的计谋应变能力和鲁棒性。这不仅在学术侧为 AI 庞杂计划提供了新的视角,也展示了计划智能 AI 未来在游玩、自动化、智慧城市管理以及庞杂系统模拟等更广泛领域的应用潜力。