论文链接:https://arxiv.org/abs/2111.09189
01 研究背景
多智能体合作是多智能体系统中的一个重要问题。我们希望每个智能体能够基于有限的局部观察独立地进行决策,但在整体上又和其余智能体一起构成团队完成共同任务。为了更好地实现合作,我们一般需要允许智能体之间通信交流重要信息以避免冲突。此前多智能体合作的相关工作大多数依赖集中训练分布执行(CTDE)框架隐式地指导智能体学习适应他人的行为模式,泛化性较差。而多智能体通信的相关工作则大都无法避免引入一个广播信道,通信代价较高。
为了解决多智能体合作问题,我们可以借鉴人类合作的机制。认知学的相关研究表明人类在合作的过程中相当依赖一种能力——“心智理论”(Theory of Mind)。具体而言,人类能够通过观察他人来推测他人的心理状态,包括意图、信念、欲望等等。基于这些推测,人类能更好地调整自身的行动以配合他人。在这篇论文中,我们将这种能力赋予智能体,使其在自身决策之前先对其他智能体的意图和观察做出推断,然后基于这些推断点对点选择通信对象,最后综合观察、推测和收到的信息做出决策。
02 方 法
在本文中,我们主要关注 Target-oriented Multi-agent Cooperation (ToMAC) 这一类合作问题。这类问题中环境存在复数个目标,智能体需要合作地调整他们与目标之间的关系来完成任务。例如多个智能体需要合作收集环境中的多个物体,或者分别导航至多个目的地。对此我们提出了基于心智理论的多智能体通信与合作框架 ToM2C(图1)。每个智能体首先从环境中获取局部观察,然后使用 ToM 网络推测其余智能体的观察内容以及它们下一步将要选择的目标。此后,每个智能体将局部观察和推断得到的信息编码为图神经网络中的结点和边特征,通过采样得到通信连接。通信的内容是推测的接收方将要选择的目标。最后,每个智能体结合自己的观察,推断的他人目标以及接受到的信息,选择自己下一步的目标。
模型的训练大致分为两部分:ToM 网络的训练和其余部分的训练。ToM 网络训练采取监督学习的方式,使用他人实际选择的目标和实际的观察作为标签。其余部分的训练通过多智能体强化学习端到端的完成。为了防止ToM网络和策略网络在训练时之间互相影响导致难以收敛,我们将二者的训练分开,在训练其中一部分时冻结另一部分的参数。
为了进一步提高通信效率,我们还提出了一种 Communication Reduction 方法。具体而言,如果某一时刻一个智能体接收通信与否不影响最后的决策,那么我们就把所有通往这个智能体的通信连接标记为冗余,然后使用监督学习对 message sender 网络进行调整。
图1. ToM2C框架
03 实 验
我们在两个环境中分别进行了实验。Cooperative Navigation (CN) 中 N 个智能体需要合作分别去往 N 个目的地。Multi-Sensor Multi-Target Coverage (MSMTC) 中 N 个传感器需要合作覆盖M个移动的目标(图2)。
图2. 两种实验环境
实验表明,ToM2C 不仅使合作更为成功(图3),同时通信代价远低于其他 SOTA 方法(图4)。我们还进一步测试了 ToM2C 的泛化性能。在 MSMTC 环境中,我们分别使用 ToM2C 和 HiT-MAC (baseline) 在4传感器5目标的设定下训练模型,然后将它们 zero-shot transfer 到不同数量的情况(2~10个传感器/2~10个目标)。结果表明 ToM2C 具有优秀的泛化性能(图5)。
图3. 在MSMTC环境中的学习曲线和消融实验
图4. CN(左)和MSMTC(右)环境中各模型的通信带宽
图5. MSMTC环境中ToM2C和HiT-MAC的泛化性能对比,颜色越均匀则泛化性越好
04 总 结
在这篇论文中我们基于心智理论设计了一种新颖的多智能体通信与合作的机制 ToM2C。智能体通过推测他人的观察和目标来辅助通信选择和个体决策。此外,一种减少冗余通信的方法也被用于进一步提高通信效率。实验表明这一机制能够促进合作,降低通信代价并且具有良好的泛化性。
图文 | 王远非
Computer Vision and Digital Art (CVDA)