论文链接:https://arxiv.org/abs/2111.09189
01 研究背景
多智能体分工是多智能体系统中的一个重要问题。我们希望每一个智能体能够鉴于有限的局部查看独立地进行决议,但在整体上又和其余智能体一起构成团队完成共同任务。为了更好地实现分工,我们一般须要允许智能体之间通讯交流重要信息以避免冲突。此前多智能体分工的相关工作大多数依赖集中训练分布执行(CTDE)框架隐式地指导智能体进修适应他人的行为模式,泛化性较差。而多智能体通讯的相关工作则大都无法避免引入一个广播信道,通讯价值较高。
为了解决多智能体分工问题,我们可以借鉴人类分工的机制。认知学的相关研究表明人类在分工的过程中相当依赖一种能力——“心智理论”(Theory of Mind)。具体而言,人类能够通过查看他人来猜测他人的心理状态,包括意图、信念、欲望等等。鉴于这些猜测,人类能更好地调整自身的行动以配合他人。在这篇论文中,我们将这种能力赋予智能体,使其在自身决议之前先对其他智能体的意图和查看做出揣度,然后鉴于这些揣度点对点抉择通讯对象,最后综合查看、猜测和收到的信息做出决议。
02 方 法
在本文中,我们主要关注 Target-oriented Multi-agent Cooperation (ToMAC) 这一类分工问题。这类问题中情况存在复数个标的,智能体须要分工地调整他们与标的之间的关系来完成任务。例如多个智能体须要分工收集情况中的多个物体,或者分别导航至多个目的地。对此我们提出了鉴于心智理论的多智能体通讯与分工框架 ToM2C(图1)。每一个智能体首先从情况中获取局部查看,然后使用 ToM 收集猜测其余智能体的查看内容以及它们下一步将要抉择的标的。此后,每一个智能体将局部查看和揣度得到的信息编码为图神经收集中的结点和边特征,通过采样得到通讯连接。通讯的内容是猜测的接收方将要抉择的标的。最后,每一个智能体结合自己的查看,揣度的他人标的以及接受到的信息,抉择自己下一步的标的。
模型的训练大致分为两部分:ToM 收集的训练和其余部分的训练。ToM 收集训练采取监督进修的方式,使用他人实际抉择的标的和实际的查看作为标签。其余部分的训练通过多智能体强化进修端到端的完成。为了防止ToM收集和策略收集在训练时之间互相影响导致难以收敛,我们将二者的训练分开,在训练其中一部分时冻结另一部分的参数。
为了进一步提高通讯效率,我们还提出了一种 Communication Reduction 方法。具体而言,如果某一时刻一个智能体接收通讯与否不影响最后的决议,那么我们就把所有通往这个智能体的通讯连接标记为冗余,然后使用监督进修对 message sender 收集进行调整。
图1. ToM2C框架
03 实 验
我们在两个情况中分别进行了试验。Cooperative Navigation (CN) 中 N 个智能体须要分工分别去往 N 个目的地。Multi-Sensor Multi-Target Coverage (MSMTC) 中 N 个传感器须要分工覆盖M个移动的标的(图2)。
图2. 两种试验情况
试验表明,ToM2C 不仅使分工更为成功(图3),同时通讯价值远低于其他 SOTA 方法(图4)。我们还进一步测试了 ToM2C 的泛化性能。在 MSMTC 情况中,我们分别使用 ToM2C 和 HiT-MAC (baseline) 在4传感器5标的的设定下训练模型,然后将它们 zero-shot transfer 到不同数量的情况(2~10个传感器/2~10个标的)。结果表明 ToM2C 具有优秀的泛化性能(图5)。
图3. 在MSMTC情况中的进修曲线和消融试验
图4. CN(左)和MSMTC(右)情况中各模型的通讯带宽
图5. MSMTC情况中ToM2C和HiT-MAC的泛化性能对比,颜色越均匀则泛化性越好
04 总 结
在这篇论文中我们鉴于心智理论设计了一种新颖的多智能体通讯与分工的机制 ToM2C。智能体通过猜测他人的查看和标的来辅助通讯抉择和个体决议。此外,一种减少冗余通讯的方法也被用于进一步提高通讯效率。试验表明这一机制能够促进分工,降低通讯价值并且具有良好的泛化性。
图文 | 王远非
Computer Vision and Digital Art (CVDA)