AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]
本篇论文的工作已被 NeurlPS(Conference on Neural Information Processing Systems)2024 会议接收。本文主要作者来自哈尔滨工业大学 (深圳) 聂礼强,邵睿团队,合作单位为鹏城实验室。其中,第一作者李在京就读于哈尔滨工业大学 (深圳) 计算机学院,研究方向为开放世界智能体和多模态学习。
在 Minecraft 中构造一个能完成各种长序列任务的智能体,颇有挑战性。现有的工作利用大语言模型 / 多模态大模型生成行动规划,以提升智能体执行长序列任务的能力。然而,由于这些智能体缺乏足够的知识和经验,面对 Minecraft 中复杂的环境仍显得力不从心。为此,本文提出了一个新颖的智能体框架 ——Optimus-1,该框架结合结构化知识与多模态经验,旨在赋能智能体更好地执行长序列任务。
论文题目:Optimus-1: Hybrid Multimodal Memory Empowered Agents Excel in Long-Horizon Tasks
论文链接:https://arxiv.org/abs/2408.03615
项目主页:https://cybertronagent.github.io/Optimus-1.github.io/
代码仓库:https://github.com/JiuTian-VL/Optimus-1
现有的 Minecraft Agents 有哪些局限性?
1. 对结构化知识缺乏探索。Minecraft 中充满了丰富的结构化知识,例如工具的合成规则(一根木棍和两块铁锭可以合成一把铁剑),以及不同层级的科技树(木材 → 石器 → 铁器 → 金器 → 钻石)等。这些知识有助于智能体做出合理的规划,一步一步获取完成任务所需的材料和工具。然而,现有的智能体缺乏必要的知识,导致他们做出长序列规划的能力受限。
2. 缺乏充足的多模态经验。过往的经验对帮助人类完成未曾遇见的任务具有重要作用,同样,智能体也能借助历史经验在面对新任务时作出更加精准的判断与决策。然而,现有的智能体在多模态经验的积累与总结上存在缺陷,未能有效整合视觉、语言、动作等多方面的经验,限制了其在复杂任务中的决策能力和适应性。
为了解决上述挑战,我们设计了一个混合多模态记忆模块,将结构化知识和多模态经验整合到智能体的记忆机制中。类似于知识与经验在指导人类完成复杂任务中的重要作用,智能体在规划阶段借助结构化知识生成可行的任务计划,而在反思阶段则利用多模态经验对当前状态进行判断,并做出更加合理的决策。在此基础上,我们提出了智能体框架 Optimus-1。在混合多模态记忆的赋能下,Optimus-1 在 67 个长序列任务上实现了当前最先进的性能,并缩小了与人类水平基线的差距。
研究方法
Optimus-1 的框架如下图所示。它由混合多模态记忆模块,知识引导的规划器,经验驱动的反思器,以及行动控制器组成。给定一个长序列任务,知识引导的规划器首先从混合多模态记忆中检索任务相关的知识,并基于这些知识生成一系列可执行的子目标。这些子目标依次输入到行动控制器中,生成行动信号以完成任务。在执行任务过程中,经验驱动反思器会定期激活,检索与当前子目标相关的多模态经验作为参考,以此判断智能体当前状态,从而做出更为合理的决策。
图 1:Optimus-1 的整体框架
1. 混合多模态记忆(Hybrid Multimodal Memory)
图 2:摘要化多模态经验池和层次化有向知识图的构建流程
如上图所示,混合多模态记忆由摘要化多模态经验池(AMEP)和层次化有向知识图(HDKG)组成。对于 AMEP,视频流首先通过 Video Buffer 和 Image Buffer 过滤,得到固定窗口大小的帧序列,并与文本通过 MineCLIP 计算相似度,若超过阈值,则保存帧序列、文本及环境信息等内容作为多模态经验。这些经验为智能体反思阶段提供细粒度的多模态信息,同时通过摘要化降低了存储开销。
对于 HDKG,任务执行过程中获取的知识被转化为图结构。例如,“两根木棍和三块木板可以合成一把木镐” 被表示为有向图 {2 sticks, 3 planks} → {1 wooden pickaxe},为智能体的规划阶段提供必要的知识支持,帮助其做出合理的任务规划。
2. 知识引导的规划器(Knowledge-Guided Planner)
给定任务 t,当前的视觉观察 o,知识引导的规划器从 HDKG 中检索相关知识,生成子目标序列:
其中,表示多模态大模型,表示从 HDKG 中检索的有向图。
3. 行动控制器(Action Controller)
行动控制器以当前的视觉观察 o,以及子目标作为输入,生成行动:
4. 经验驱动的反思器(Experience-Driven Reflector)
经验驱动的反思器会定期被启动,以当前的视觉观察 o,子目标,以及从 AMEP 中检索的 case 作为输入,生成反思 r:
反思 r 分为三类:COMPLETE 表示当前子目标已完成,可以执行下一子目标;CONTINUE 表示当前子目标未完成,需要继续执行;REPLAN 表示当前子目标无法继续执行,需要知识引导的规划器重新规划。
实验结果
本文在开放世界环境 Minecraft 中选取了 67 个长序列任务进行评估,涵盖木材,石器 ,铁器,金器,钻石,红石,装备七个任务组。每次执行任务,智能体都随机在任意环境中,初始装备为空,这显著增加了任务的挑战性。此外,本文还构建了一个人类水平的基线,以评估现有的智能体与人类水平之间的差距。
表 1:Optimus-1 在 7 个任务组上的平均成功率
实验结果如上表所示,Optimus-1 在所有任务组的成功率都显著高于先前的方法。广泛的消融实验也证明了知识和经验对智能体执行长序列任务的重要性。
表 2:消融实验结果。其中,P,R,K,E 分别代表规划,反思,知识,以及经验。
值得注意的是,本文还探索了将任务失败的 case 应用于 in-context learning 所带来的影响。实验结果显示,将成功和失败的 case 都纳入智能体的反思阶段,能够显著提升任务的成功率。
表 3:对多模态经验的消融实验结果。其中,zero,suc,Fai 分别代表 zero-shot,仅使用成功 case,以及仅使用失败 case。
通用性
虽然基于 GPT-4V 构建的 Optimus-1 性能卓越,但调用商用大模型的成本不容忽视。因此,本文进行了更广泛的实验,探索一个重要问题:使用现有的开源多模态大模型构建 Optimus-1,性能表现如何?
图 3:不同多模态大模型作为 backbone 的性能对比
如上图所示,在没有混合多模态记忆模块的情况下,各种多模态大模型在长序列任务上的表现较差,尤其是在具有挑战性的钻石任务组中,成功率接近 0。而在混合多模态记忆模块赋能下,开源多模态大模型也和 GPT-4V 有了可比的性能。这揭示了混合多模态记忆模块的通用性。
结论
在本文中,我们提出了混合多模态记忆模块,由 HDKG 和 AMEP 组成。HDKG 为智能体的规划阶段提供必要的世界知识,而 AMEP 则为反思阶段提供精炼的历史经验。在此基础上,我们在 Minecraft 中构建了智能体 Optimus-1。广泛的实验结果表明,Optimus-1 在长序列任务中的表现超越了现有的智能体。此外,我们还验证了混合多模态记忆模块的通用性,开源多模态大模型在其赋能下,与 GPT-4V 也有可比的性能。