电子游戏已经成为如今现实世界的模拟舞台,展现出无限可能。以游戏《侠盗猎车手》(GTA)为例,在 GTA 的世界里,玩家可以以第一人称视角,在洛圣都(游戏虚拟城市)之中经历丰富多彩的生活。然而,既然人类玩家可以在洛圣都里尽情遨游完毕若干任意,我们是否也能有一个 AI 视觉模型,操控 GTA 中的角色,成为施行任意的 “玩家” 呢?GTA 的 AI 玩家又是否可以扮演一个五星好市民,遵守交通规则,帮助警方抓捕罪犯,甚至做个热心肠的路人,帮助流浪汉找到合适的住所?
目前的视觉 – 言语模型(VLMs)在多模态感知和推理方面取得了实质性的进步,但它们往往基于较为简单的视觉问答(VQA)或者视觉标注(Caption)任意。这些任意设定显然无法使 VLM 真正完毕现实世界之中的任意。因为实际任意不仅需要对于视觉信息的理解,更需要模型具有筹备推理以及根据实时更新的情况信息做出反馈的才能。同时生成的筹备也需要可以操纵情况中的实体来真实地完毕任意。
尽管已有的言语模型(LLMs)可以根据所提供的信息举行任意筹备,但其无法理解视觉输出,极大的限制了言语模型在施行现实世界的具体任意时的应用范围,尤其是对于一些具身智能任意,基于文本的输出往往很难详尽或过于复杂,从而使得言语模型无法从中高效地提取信息从而完毕任意。而当前的言语模型对于程序生成已经举行了若干探索,但是根据视觉输出来生成结构化,可施行,且稳健的代码的探索还尚未深入。
为了解决如何使大模型具身智能化的问题,创建可以准确制定计划并施行命令的自主和情境感知系统,来自新加坡南洋理工大学,清华大学等的学者提出了 Octopus。Octopus 是一种基于视觉的可编程智能体,它的目的是通过视觉输出学习,理解真实世界,并以生成可施行代码的方式完毕各种实际任意。通过在大量视觉输出和可施行代码的数据对的训练,Octopus学会了如何操控电子游戏的角色完毕游戏任意,或者完毕复杂的家务活动。
论文地址:https://arxiv.org/abs/2310.08588
项目网页:https://choiszt.github.io/Octopus/
开源代码:https://github.com/dongyh20/Octopus
数据收集与训练
为了训练可以完毕具身智能化任意的视觉 – 言语模型,研究者们还开发了 OctoVerse,其包含两个仿真系统用于为 Octopus 的训练提供训练数据以及尝试情况。这两个仿真情况为 VLM 的具身智能化提供了可用 的训练以及尝试场景,对模型的推理和任意筹备才能都提出了更高的要求。具体如下:
1.OctoGibson:基于斯坦福大学开发的 OmniGibson 举行开发,一共包括了 476 个符合现实生活的家 务活动。整个仿真情况中包括 16 种不同类别的家庭场景,涵盖 155 个实际的家庭情况实例。模型可 以操作其中存在的大量可交互物体来完毕最终的任意。
2.OctoGTA:基于《侠盗猎车手》(GTA)游戏举行开发,一共构建了 20 个任意并将其泛化到五个不 同的场景之中。通过预先设定好的程序将玩家设定在固定的位置,提供完毕任意必须的物品和 NPC,以保证任意可以顺利举行。
下图展示了 OctoGibson 的任意分类以及 OctoGibson 和 OctoGTA 的一些统计结果。
为了在构建的两个仿真情况中高效的收集训练数据,研究者构建了一套完整的数据收集系统。通过引入 GPT-4 作为任意的施行者,研究者们使用预先实现的函数将在仿真情况之中收集到的视觉输出处理为文本信息提供给 GPT-4,在 GPT-4 返回当前一步的任意筹备和可施行代码后,再在仿真情况之中施行代码,并 判断当前一步的任意是否完毕。如果成功,则继续收集下一步的视觉输出;如果失败,则回到上一步的起始位置,重新收集数据。
上图以 OctoGibson 情况之中的 Cook a Bacon 任意为例,展示了收集数据的完整流程。需要指出的是,在收集数据的过程中,研究者不仅记录了任意施行过程中的视觉信息,GPT-4 返回的可施行代码等,还记录了每一个子任意的成功情况,这些将作为后续引入强化学习来构建更高效的 VLM 的基础。GPT-4 的功能虽然强大,但并非无懈可击。错误可以以多种方式显现,包括语法错误和模拟器中的物理挑战。例如,如图 3 所示,在状态 #5 和 #6 之间,由于 agent 拿着的培根与平底锅之间的距离过远,导致 “把培根放到平底锅” 的行动失败。此类挫折会将任意重置到之前的状态。如果一个任意在 10 步之后仍未完毕,则被认定为不成功,我们会因预算问题而终止这个任意,而这个任意的所有子任意的数据对都会认为施行失败。
在收集一定规模的训练数据后,研究者利用这些数据训练出了一个具身智能化的视觉 – 言语模型 Octopus。上图展现了完整的数据收集和训练流程。在第一阶段,通过使用收集的数据举行监督式微调,研究者构建出了一个可以以视觉信息作为输出,遵从固定格式举行输出的 VLM 模型。在这一阶段, 模型可以完毕视觉输出信息到任意计划以及可施行代码的映射。而在第二阶段,研究者引入了 RLEF
(Reinforcement Learning with Environmental Feedback),通过利用先前收集的子任意的成功情况作为奖励信号,采用强化学习的算法更进一步的提拔 VLM 的任意筹备才能,从而提高整体任意的成功率。
实验结果
研究者在构建的 OctoGibson 情况中,对于当前主流的 VLM 和 LLM 举行了尝试,下表展示了主要实验结 果。对于不同的尝试模型,Vision Model 列举了不同模型所使用的视觉模型,对于 LLM 来说,研究者将视觉信息处理为文本作为 LLM 的输出。其中 O 代表提供了场景中可交互物体的信息,R 代表提供了场景中 物体相对关系的信息,GT 代表使用真实准确的信息,而不引入额外的视觉模型来举行检测。
对于所有的尝试任意,研究者报告了完整的尝试集成功率,并进一步将其分为四个类别,分别记录在训 练集中存在的场景中完毕新任意,在训练集中不存在的场景中完毕新任意的泛化才能,以及对于简单的 跟随任意以及复杂的推理任意的泛化才能。对于每一种类别的统计,研究者报告了两种评价指标,其中 第一个为任意的完毕率,以衡量模型完毕具身智能任意的成功率;第二个为任意筹备准确率,用于体现 模型举行任意筹备的才能。
此外,研究者还展示了不同模型对于 OctoGibson 仿真情况中收集的视觉数据的响应实例。下图展示了 TAPA+CodeLLaMA,Octopus 以及 GPT-4V 对于 OctoGibson 之中视觉输出生成的回复。可以看到,相较 于 TAPA+CodeLLaMA 以及只举行了监督式微调的 Octopus 模型,使用 RLEF 举行训练之后的 Octopus 模型 的任意筹备更加合理,即使是对于较为模糊的任意指令(find a carboy)也能提供更加完善的计划。这些表现都更进一步说明了 RLEF 训练策略对于提拔模型的任意筹备才能以及推理才能的有效性。
总体来说,现有的模型在仿真情况中表现出的实际任意完毕度和任意筹备才能依旧有很大的提拔空间。研究者们总结了一些较为关键的发现:
1.CodeLLaMA 可以提拔模型的代码生成才能,但不能提拔任意筹备才能。
研究者指出,通过实验结果可以看出,CodeLLaMA 可以显著的提拔模型的代码生成才能。与传统的 LLM 相比,使用 CodeLLaMA 可以获得更好的,可施行率更高的代码。然而,尽管一些模型使用了 CodeLLaMA 举行代码生成,但整体任意的成功率依然会受到任意筹备才能的限制。任意筹备才能较弱的模型,及时生成的代码可施行率较高,最终的任意成功率依然较低;而反观 Octopus,尽管未使用 CodeLLaMA,代码的可施行率有所下降,但得益于其强大的任意筹备才能,整体任意成功率依旧优于其他模型。
2.LLM 在面对大量的文本信息输出时,处理较为困难。
在实际的尝试过程中,研究者通过对比 TAPA 和 CodeLLaMA 的实验结果得出了一个结论,即言语模型很难较好地处理长文本输出。研究者们遵从 TAPA 的方法,使用真实的物体信息来举行任意筹备,而 CodeLLaMA 使用物体和物体之间的相对位置关系,以期提供较为完整的信息。但在实验过程中,研究者 发现由于情况之中存在大量的冗余信息,因此当情况较为复杂时,文本输出显著增加,LLM 难以从大量 的冗余信息之中提取有价值的线索,从而降低了任意的成功率。这也体现了 LLM 的局限性,即如果使用 文本信息来表示复杂的场景,将会产生大量冗余且无价值的输出信息。
3.Octopus 表现出了较好的任意泛化才能。
通过实验结果可以得出,Octopus 具有较强的任意泛化才能。其在训练集之中未出现的新场景中完毕任 务的成功率和任意筹备的成功率均优于已有的模型。这也展现出了视觉 – 言语模型的一些内在优势,针对 同一类别的任意,其泛化性优于传统的 LLM。
4.RLEF 可以增强模型的任意筹备才能。
在实验结果中,研究者们提供了只经过第一阶段监督式微调的模型以及经过 RLEF 训练之后模型的机能比 较。可以看出,在经过 RLEF 训练之后,模型在需要较强的推理才能和任意筹备才能的任意上,整体成功 率和筹备才能有了显著提拔。与已有的 VLM 训练策略相比,RLEF 也更加的高效。上图所展示的示例也可以体现 RLEF 训练之后模型在任意筹备才能上的提拔。经过 RLEF 训练之后的模型可以懂得在面对较为复杂的任意时,如何在情况之中举行探索;此外,模型在任意筹备上可以更加遵从仿真情况中的实际要求(如,模型需要先移动到要交互的物体,才能开始交互),从而降低任意筹备的失败比率。
讨论
消融实验
在对模型的实际才能举行评估之后,研究者们更进一步探究了一些影响模型机能的可能因素。如下图所示,研究者从三个方面开展了实验。
1. 训练参数的比重
研究者对比了只训练视觉模型与言语模型的连接层,训练连接层和言语模型,以及完整训练的模型的机能。可以看出,随着训练参数的增加,模型的机能逐渐获得了提拔。这说明,训练参数的多少对于模型是否可以在一些固定的场景之中完毕任意至关重要。
2. 模型的大小
研究者们比较了较小的 3B 参数模型与基线 7B 模型在两个训练阶段的机能差异。通过比较可以看出,当模型整体参数量较大时,模型的机能也会得到明显的提拔。如何选定合适的模型训练参数,使得模型可以 拥有完毕对应任意的才能,同时也可以保证模型的轻量化和较快的推理速度,将是未来 VLM 领域研究中较为关键的一点。
3. 视觉输出的连续性
为了探究不同的视觉输出对于实际 VLM 机能的影响,研究者对视觉信息的输出顺序举行了实验。在尝试 的过程中,模型会在仿真情况之中顺序转动,收集第一视角图像,并收集两张鸟瞰图,之后这些视觉图 像会按顺序输出 VLM 之中。而在实验中,当研究者随机打乱视觉图像顺序再输出 VLM 中时,VLM 产生了 较大的机能损失。这一方面说明了完整且结构化的视觉信息对于 VLM 的重要性,另一方面也从某种程度上反映了 VLM 在对视觉输出举行响应时需要依靠视觉图像的内在联系,而一旦这种视觉上的联系被破坏,将会极大的影响 VLM 的表现。
GPT-4
此外,研究者还对 GPT-4 以及 GPT-4V 在仿真情况之中的机能举行了尝试和统计。
1.GPT-4
针对 GPT-4,在尝试过程中研究者提供与使用其收集训练数据时完全相同的文本信息作为输出。在尝试任意上,GPT-4 可以完毕一半的任意,这一方面说明现有的 VLM 相对于 GPT-4 这样的言语模型,从机能上还 有很大的提拔空间;另一方面也说明,即使是 GPT-4 这样机能较强的言语模型,在面对具身智能任意时, 其任意筹备才能和任意施行才能依然需要更进一步的提拔。
2.GPT-4V
由于 GPT-4V 刚刚发布可以直接调用的 API,研究者还没来得及尝试,但是研究者们之前也手动尝试了一些实例来展现 GPT-4V 的机能。通过一些示例,研究者认为 GPT-4V 对于仿真情况之中的任意具有较强的零样本泛化才能,也可以根据视觉输出生成对应的可施行的代码,但其在一些任意筹备上稍逊色于在仿真情况收集的数据上微调之后的模型。
总结
研究者们指出了目前工作的一些局限性:
1. 当前的 Octopus 模型在较为复杂的任意上机能并不令人满意。在面对复杂任意时,Octopus 往往会做出错误的筹备,并且严重依赖于情况给出的反馈信息,最终往往难以完毕整体的任意。
2.Octopus 模型仅在仿真情况之中举行训练,而如何将其迁移到真实世界之中将会面临一系列的问题。例如,真实情况之中模型将难以得到较为准确的物体相对位置信息,如何构建起物体对于场景 的理解将变得更加困难。
3.Octopus 目前的视觉输出为离散的静态图片,如何使其可以处理连续的视频将是未来的挑战。连续的视频可以更进一步提高模型完毕任意的机能,但如何高效地处理和理解连续视觉输出将成为进一步提拔 VLM 机能的关键。