全球最重要的电竞赛事之一 DreamHack 刚刚落幕,来自世界各地的星际争霸 II 顶尖选手们展开了激烈的较量。在这场紧张精彩的赛事中,人族选手 CLEM 凭借出色的战术和操作,击败了世界冠军 Dark,赢得了其生涯首个线下大赛冠军。
在 AI 领域,DeepMind 的 AlphaStar 在 2019 年发表于《Nature》杂志,至今仍是 AI 研究的重要里程碑。AlphaStar 标志着 AI 技术在了解和处理繁复战略任务方面的巨大进步。然而,它在临时战略规划和决议计划的可解释性方面的局限性,也为研究者们提供了进一步的研究空间。
正是看到了这些挑战和机遇,中国科学院自动化研究所的群体决议计划智能尝试室与伦敦大学学院 (UCL) 的汪军教授合作,将最近兴起的 LLM Agent 技术使用于星际争霸 II 的 AI 研究。
团队通过 LLM 了解与阐发威力来提高星际 AI 的临时战略规划与可解释性决议计划。为了提升 LLM 的临时战略规划威力,团队设计了 TextStarCraft II 情况和 Chain of Summarization (CoS) 步骤。CoS 步骤可能有效的提升 LLM 对繁复情况的了解威力,极大提高了 LLM 的战略规划和宏观计谋威力。
该步骤创造性的解决了 LLM 在临时战略规划和及时战略决议计划方面存在的不足,让 LLM agent 可能在星际争霸 II 这样的繁复 RTS 游玩中做出临时计谋规划和及时计谋调整,最终进行合理且具有可解性的决议计划。
此外,团队邀请了 30 位大师和宗师级选手(包括了星际争霸 2 高校冠军 TATP,ReWhite,Joliwaloves 等知名选手)对 GPT 等 LLM 在星际争霸 II 的相关知识进行测评。最终 LLM agent 涌现出了超越 AlphaStar 的危险预测和兵种转型威力,以及前期快攻,前期侦察,加速研发科技等类人计谋。
文章链接:https://arxiv.org/abs/2312.11865
Github 仓库地址:https://github.com/histmeisah/Large-Language-Models-play-StarCraftII
TextStarCraft II:语言模型的新战场
面对星际争霸 II 这一巨大挑战,团队开发了 TextStarCraft II —— 一个全新的交互情况,它将星际争霸 II 转换成了一个文字游玩。这个情况基于 python-sc2 框架,将游玩中的状态信息和行动空间巧妙地映射到文本空间。在这里,宏观战略行动被转化为 LLM Agent 可能了解并执行的具体语义行动,大致包括生产单位,建造建筑和升级科技等。而微观操作则交由一套固定的规则式步骤处理。
为了保证尝试最终的结果是得益于 LLM agent 的阐发和决议计划威力,研究团队将宏观行动和微观行动都设置为最简单的情况,以避免过强的规则步骤带来的干扰。得益于 TextStarCraft II,LLM agent 可能在这个全新的战场上与游玩内置的 Build-in AI 展开较量。同时借助 python-sc2,该步骤可能适配游玩的最新版本和地图,实现星际争霸 II AI 的灵活部署和高效使用。
Chain of Summarization:突破思维的界限
在星际争霸 II 的战场上,进行有效决议计划意味着需要及时处理大量繁复的信息,进行合理的战略阐发与临时规划,最终制定宏观战略决议计划。这让团队面临着巨大的挑战。原有的 CoT (Chain of Thought) 及其改进步骤,在 TextStarCraft II 情况中遭遇了三个主要问题:无法完全了解繁复的游玩信息,难以阐发战局的走向,以及不足以提出有用的计谋建议。
针对这些挑战,团队创新性地提出了 「Chain of Summarization」步骤。这一步骤分为两大核心组成部分:单帧归纳和多帧归纳。单帧归纳侧重于信息的压缩和提取,将观测到的游玩信息转化为简洁而富含语义的结构化数据,从而便于 LLM 的了解和阐发。而多帧归纳则是受到计算机硬件缓存机制和强化学习中的跳帧技术的启发,通过同时处理多步观测信息,弥补了快节奏的游玩和 LLM 推理速度之间的差异,提高了 LLM 在繁复情况中的了解和决议计划威力。
图1:Chain of Summarization 框架。
Complex Prompt System:构建智慧的桥梁
为了引导 LLM 进行高效的及时战略决议计划,团队精心设计了一套繁复的提示词系统 (prompt system)。这套系统包括四个主要部分:游玩状态归纳,状态阐发,计谋建议,以及最终决议计划。
通过这种方式,模型可能全面了解游玩的当前局势,阐发敌我双方的计谋,并提出具有战略深度的建议,最终做出多步的合理决议计划。这不仅极大地提高了 LLM 的及时决议计划威力和临时规划威力,也极大提升了决议计划的可解释性。在后续的尝试中,LLM agent 展示了前所未有的智能水平。
尝试结果
Chain of Summarization 对交互速度的提升
在验证 Chain of Summarization 步骤的有效性方面,团队选择了 GPT-3.5-turbo-16k 作为 LLM。尝试对比了使用和未使用该步骤的两种情况。结果表明:Chain of Summarization 不仅将 LLM 与游玩端的交互速度提升到了之前的十倍,还显著增强了模型对游玩情境的了解及决议计划威力。
LLM agent 的性能展示
在这一系列尝试中,团队选择了 GPT-3.5-turbo-16k 作为 LLM,并使用了 Chain of Summarization 步骤。尝试目的是测试 LLM Agent 扮演的神族玩家在与不同难度的虫族内置 AI 对抗中的表现。尝试结果如下表所示:
虽然 LLM agent 未能击败 Very Hard 的内置 AI,但是该步骤超越了采用同样行动空间下的人类专家手动编写的计谋,可能适应更加繁复多变的战场情况。
类人计谋的发现
在尝试过程中,一个令人兴奋的发现是 LLM Agent 展现出了许多与人类玩家类似的计谋。这些计谋包括前期侦察、前期快攻、加速升级科技和兵种转型等。更为重要的是,团队观察到,在 Chain of Summarization 步骤的帮助下,LLM Agent 可能通过观察、思考和决议计划来有效进行及时战略规划,实现了既具有可解释性又符合临时规划的决议计划。
1. 狂热者快攻 2. 加速研发科技 3. 前期侦察 4. 加速生产工人 5. 防御与反击 6. 侦测单位侦察
不同语言模型的表现
为了深入探究 LLM 在玩星际争霸 II 中表现优异的根本原因,团队提出了一个假设:这些 LLM 在其预训练阶段可能已经学习到了关于星际争霸 II 的相关知识。
为验证这一假设,团队设计了一系列问题,覆盖星际争霸 II 的基础知识、种族机制、典型战术、标准开局及战术应对等方面。这些问题的回答由人类专家(大师和宗师级选手)和 GPT-4 进行双盲评分,以此评估不同模型对星际争霸 II 知识的掌握程度。
尝试结果如下图所示,其中揭示了一个有趣的现象:这些模型在不同程度上确实掌握了星际争霸 II 的相关知识,其中 GPT-4 在了解和回答这些问题上表现尤为出色。这一发现不仅支持了团队的假设,也为了解 LLM agent 在繁复现实场景中的使用提供了新的视角。
计谋的可解释性:LLM Agent 的战略智慧
在 AI 领域,即使是像 AlphaStar 这样能击败人类职业选手的强大 AI,有时也会做出一些难以了解或解释的决议计划。相比之下,尽管 LLM Agent 可能无法达到 AlphaStar 那样精细的微操作水平,但其强大的逻辑思考威力使其可能阐发乃至预测游玩走向,并提供更合理的决议计划。这一威力主要体现在两个方面:
1. 预测危险与建立防御:如左图所示,AlphaStar(蓝色虫族)在对抗大师级玩家(红色神族)时,未能及时建造防空建筑来应对对手的骚扰,导致了重大损失。而在右图中,LLM Agent(绿色神族)通过预判对手(红色虫族)的攻势,及时建造了护盾电池,成功进行了防御。
2. 战场形势下的兵种转型:在另一场比赛中,AlphaStar(蓝色虫族)面对大师级玩家(红色人族)的机械化部队时,并未做出有效的兵种转型,导致资源和人口的浪费(见左图)。相对而言,LLM Agent(红色神族)在面对敌方(蓝色虫族)时,不仅迅速生产出克制对手的部队,还进一步研发了相关科技,实现了合理的部队转型和计谋拓展(见右图)。
展望未来:LLM agent 的潜力与使用
展望未来,团队期待 TextStarCraft II 情况可能成为评估 LLM 及 LLM Agent 威力的重要标准。此外,团队认为未来将 LLM 与强化学习相结合,会产生更高级的计谋和更佳的可解释性,可能解决星际争霸 II 以及更繁复的决议计划场景。这种步骤不仅有潜力超越 AlphaStar,还可能解决更加繁复和多变的决议计划问题,从而为 AI 在现实社会中的使用开辟新的道路。