模型、大师智能体和数据集都已开源。
随着 Llama 3 发布,未来大模型的参数量已飙升至惊人的 4000 亿。尽管每周几乎都有一个声称性能超强的大模型出来炸场,但 AI 应用还在等待属于它们的「ChatGPT 时刻」。其中,AI 智能体无疑是最被看好的赛道。
就连吴恩达都说,GPT-4 加上 AI 智能体,可能提前抵达 GPT-5 的效果。
不过,我们熟知的智能体往往有点「偏科」。例如,第一个 AI 软件工程师 Devin,专精于代码。会打游玩的智能体往往也只能在某一个游玩里秀操作。寻找一个能够同时擅长多个领域,并能在其中无缝切换的通用模型仍是机器进修研讨中的一个关键目标。
为了解决这个问题,研讨者们对于智能体如何结合计算机视觉(CV)和自然语言处理(NLP)工作进行了广泛探索,但将加强进修(RL)工作整合进来的研讨相对较少。这是由于 RL 工作本质上是异质的,这使得将 RL 工作与对话和图象识别等其他工作结合起来更加困难。这要求智能体能融会贯通不同领域工作中的不同模态、工作复杂性和数据类型。要抵达全能型智能体,主要需要解决以下问题:(1)如何设计一个能够处理多种数据类型和模态的统一模型结构?(2)如何有效地平衡不同工作的进修进度和优先级?(3)如何确保智能体制定合适的进修目标,以避免不同工作之间的干扰和负向迁移?
来自 Hugging Face、法国国家信息与自动化研讨所(INRIA)和波尔多大学的四位研讨者提出了智能体中的「六边形战士」——Jack of All Trades (JAT)。JAT 是一个基于 Transformer 的多模态通用加强进修智能体框架。在此框架下,智能体能够通过同一套参数应对不同复杂度的多种工作,化身既会打游玩,又能控制机器人的全能高手。论文同时发布了大量 RL 智能体与 JAT 数据集。这是首个用于通用智能体训练的数据集 JAT 数据集,包含了由大师智能体收集的数十万条轨迹。
论文名称:《Jack of All Trades, Master of Some, a Multi-Purpose Transformer Agent》
论文链接:https://huggingface.co/papers/2402.09844
代码链接:https://github.com/huggingface/jat
项目链接:https://huggingface.co/jat-project/jat
数据集:https://huggingface.co/datasets/jat-project/jat-dataset
模型架构
JAT 的核心结构基于 Transformer,运用了 EleutherAI 的 GPT-Neo 实现。JAT 最大的创新点在于其嵌入机制,从本质上解决了数据类型不同的问题。JAT 模型将考察嵌入与其对应的奖赏值和举动嵌入交错排列,形成一个序列。
图 1.JAT 网络架构。对于序列中的决策工作,一方面输入考察嵌入与奖赏值,另一方面行动嵌入被编码并被交错放置。模型运用因果掩码自回归地生成下一个嵌入,并根据预期的模态进行解码。
因此,每个嵌入要么对应一个与奖赏相关联的考察嵌入,要么对应一个举动嵌入。JAT 如何进一步对这些信息进行编码呢?这要取决于数据的类型。如果考察嵌入或举动嵌入的数据类型是图象,那么 JAT 将运用 CNN。如果是连续向量,则运用线性层。如果是离散值,则运用线性投影层。模型的输出也遵循相同的逻辑,具体取决于预计目标的数据类型。预计基于因果推理进行,将考察嵌入向后移动一个时间步,确保智能体可以根据所有先前的考察和举动嵌入来预计下一个举动嵌入。
这种嵌入设计让研讨团队在训练智能体执行 NLP 和 CV 工作时兴致盎然。对于和文本相关的工作,作者让 JAT 模型采用 GPT-2 的分词策略,将文本转换为一个整数序列,然后通过一个查找表映射到一个嵌入向量序列。对于和图象有关的工作,JAT 模型将选择 ViT 方法,将图象切割成小块后,通过线性层转换为嵌入向量序列。JAT 模型再将图象和文本的向量序列拼接在一起,形成一个统一的序列,输入到 Transformer 中。
考虑到数据的模态变来变去,JAT 如何计算损坏函数呢?它将针对每种模态分别计算 loss。对于图象和连续值,它运用均方误差(MSE)损坏。对于离散值,它运用交叉熵损坏。最终的损坏是序列中每种元素损坏的平均值。那么,这是否意味着 JAT 在预计举动嵌入和考察嵌入时的权重是相同的呢?实际上不是,在此后的章节中将一步探讨这个问题。
实验结果
研讨团队共采用了 157 个训练工作来 JAT 评估。他们将这些工作分为 10 类,并记录了 JAT 的总奖赏值。
JAT 模型在最终的检查点上抵达了 65.8% 的大师得分,说明 JAT 能够在非常广泛的工作上抵达大师水平。以下具体列出了 JAT 在四个常见的智能体训练情况中的得分:
对于 Atari 57,应用 JAT 模型的智能体实现了大师分数的 14.1%,这相当于人类施展阐发的 37.6%。Atari 视频游玩广泛被用作评估和开发加强进修算法的基准情况,其中《吃豆人》是一款标志性游玩。在这一系列的 21 款游玩中,JAT 智能体的施展阐发已经超越了人类玩家。值得注意的是, JAT 只用了单一网络就在所有 Atari 视频游玩中抵达了这种水平;
对于 BabyAI,应用 JAT 模型的智能体抵达了大师分数的 99.0%,只有一个工作的施展阐发未能超过大师水平的 50%;
对于 Meta-World,应用 JAT 模型的智能体抵达了大师分数的 65.5%;
对于 MuJoCo,应用 JAT 模型的智能体抵达了大师分数的 84.8%。
JAT 智能体在 Atari 57 基线上和人类施展阐发的对比
JAT 智能体在小游玩中的施展阐发
这些 JAT 智能体都可以通过项目主页下载,进一步测试和体验。更多细节请参阅论文原文。
大师智能体和 JAT 数据集
大师策略
传统的加强进修往往在单一情况中寻找大师策略,即在一个特定工作中寻找让模型施展阐发最优的方法。构建跨领域的多功能智能体,也离不开这种方法。论文作者选择了 Atari、BabyAI、Meta-World 和 MuJoCo 一系列性质不同,难度各异的训练情况,直到训练出施展阐发最好的智能体。这一系列采用 JAT 框架的大师智能体已经在项目主页上发布。
JAT 数据集
论文作者随论文同步发布了 JAT 数据集,这是首个针对通用智能体训练的专项数据集。其中包含了数十万条由上述大师智能体收集的轨迹数据。运用起来也很方便,可以像加载 Hugging Face 平台上的其他数据集一样简单。以下是调用代码示例:
JAT 数据集不仅包含加强进修的数据,还整合了来自维基百科等文本数据集,以及 Oscar、OK-VQA、Conceptual Captions 等针对视觉工作的数据集,提供了更丰富的数据类型选择。
增加模型预计考察嵌入的能力
智能体学得更好更快了
在训练加强进修智能体时,主要目标是使其在未曾遇到的工作中实现奖赏最大化。然而,如果要求智能体预计未来可能遇到的情境,这一额外工作会促进还是阻碍其进修过程呢?
关于这个问题存在两种相反的观点。一方面,学会预判可能会让智能体对情况有更深入的理解,从而学得更好更快。另一方面,这可能会分散智能体对其主要目标的注意力,导致在预计考察嵌入和行动嵌入时都施展阐发平庸。
为了得到问题的答案,论文作者进行了一个实验,运用了一个结合了考察损坏和行动损坏的损坏函数,并通过权重参数 k 来平衡这两种损坏。
研讨团队在 95% 的置信区间内,针对选定工作,测量了预判将如何影响模型进修。每项工作进行了 100 次评估,基于这些评估得到了 k 值的范围。结果表明,适当选择 k 值可以显著提升智能体的施展阐发。
当 k 值过高(高于 0.5)时,预计考察嵌入的额外工作阻碍了进修过程。但当 k 值较低时,对进修的影响可以忽略不计,且智能体的施展阐发与没有额外预判工作时的施展阐发相似。
研讨团队发现,当 k=0.005 时,存在一个最佳临界点。这意味着,只要平衡得当,为智能体增加预计考察嵌入的工作,实际上可以提高智能体的进修效率。这一发现对于设计类似的智能体具有重要意义,突显了辅助目标在提升智能体进修效率方面的潜在价值。
未来展望
JAT 项目为通用智能体研讨领域开辟了全新的方向。研讨团队表示目前只是初步探索,以下几点思路可供未来研讨者深入挖掘:
改进数据的质量:尽管填补了之前少有通用智能体训练数据集的空缺,JAT 数据集仍处于初级阶段。其中的大师轨迹仅来自每个情况中的一名大师智能体,这可能导致一些误差。虽然研讨团队已尽力让智能体抵达最优施展阐发,但某些情况仍具挑战性。在这些情况中,智能体仍有很大进步空间。收集到更多数据,训练更多的大师智能体,将在很大程度上解决这些问题。
运用离线加强进修:JAT 智能体是仿照基线一比一地训练出来的。这意味着,其一,智能体无法利用次优的轨迹;其二,JAT 智能体无法超越大师。论文选择了这种方法是因为它比较简单,但研讨团队相信,运用离线加强进修可以提高智能体的性能,同时,实现起来也不会过于复杂。
发挥更智能的多工作采样策略的全部潜力:目前,JAT 智能体均匀地从所有工作中采样数据,但这种方法可能限制了它的全部潜力。通过动态调整采样率,专注于最具挑战性的工作,或许也可以加速智能体的进修过程,并解锁显著的性能提升。
参考链接:
https://huggingface.co/blog/jat
🆕 Introducing JAT, the first open-source multi-modal, multi-task multi-domain agent! 🤖 A step toward open generalist agents! 🚀
📰 Blog: https://t.co/4N1DrQcpLo pic.twitter.com/abGB3IWzOs
— Quentin Gallouédec (@QGallouedec) April 22, 2024