大言语模型因其强大而通用的言语生成、理解才智,展现出了成为通用智能体的潜力。与此同时,在绽放式的情况中探究、进修则是通用智能体的重要才智之一。因此,大言语模型如何适配绽放全国是一个重要的研究问题。
北京大学和北京智源人工智能研究院的团队针对这个问题提出了 LLaMA-Rider,该格式赋予了大模型在绽放全国中探究使命、搜集数据、进修策略的才智,助力智能体在《我的全国》(Minecraft)中自决探究获取学问并进修办理各种使命,提升智能体自决才智和通用性。
自决探究绽放世
论文链接:https://arxiv.org/abs/2310.08922
代码链接:https://github.com/PKU-RL/LLaMA-Rider
1、情况反应驱动的探究与进修
LLaMA-Rider 着眼于让大言语模型 (LLM) 适应情况从而提高在情况中办理多使命的才智。LLM 在预训练阶段获得的学问与实际情况很可能存在不一致,这常常导致决议错误。为了办理这个问题,现有的格式有些操纵提示工程,通过和 LLM 频繁交互让其获取情况信息,不过并不更新 LLM;有些利用强化进修在线微调 LLM,不过其计算代价高且难以扩展到多使命和复杂使命。
LLaMA-Rider 对此提出了新的思路。它首先操纵情况的反应信息,靠 LLM 自身的才智在情况中探究,搜集成功经验。之后,LLaMA-Rider 将经验整合成监督数据集从事进修,更新自身的学问。这样一个两阶段的训练框架让 LLaMA-Rider 能够在 Minecraft 情况中的 30 个使命上夺得超过 ChatGPT 使命规划器的平均表现,并展现出对新使命的泛化才智。
在探究阶段,LLaMA-Rider 操纵反应 – 修改机制来从事主动探究。在每个时间步上,LLaMA-Rider 接收文本化的情况信息和使命信息,并给出下一步的决议。由于与情况的学问差距,该决议可能无法在情况中执行并触发情况的反应信息,而该反应信息会再次输入给 LLaMA-Rider,引导其修改决议。凭借 LLM 自身的上下文理解才智和情况反应信息,LLaMA-Rider 可高效探究绽放全国。
为了将 LLM 的文本输出匹配到情况的动作空间,LLaMA-Rider 利用了一组预训练的技巧作为技巧库,并利用技巧检索模块将 LLM 的输出文本和技巧库中的技巧描述从事匹配,检索最接近的技巧。由于技巧描述和情况中的动作相比具有更多的语义,这种方式可以更大程度操纵 LLM 的才智。
此外,LLaMA-Rider 利用了子使命重标记的格式,在探究过程中用当前正在完成的子使命信息替换输入中的原始使命信息,让 LLM 在探究过程中能关注当下的子目标,提高使命成功率。
在进修阶段,探究时搜集到的经验将会整合成监督数据集,用以对 LLM 从事监督微调 (SFT)。数据集中同样采用子使命重标记的格式让 LLaMA-Rider 进修到使命之间的子使命组合性,提高策略的泛化才智。
2、实验效果
LLaMA-Rider 利用的大言语模型为近期推出的 LLaMA-2-70B-chat。在 Minecraft 的三类共 30 个使命中,LLaMA-Rider 的表现超过了基于 ChatGPT 的使命规划器,并且经过进修后的 LLaMA-Rider 所能完成的使命数量也超过了它在探究阶段能成功的数量,展现出 LLaMA-Rider 对于绽放全国中持续进修和多使命办理的才智。
与强化进修 (RL) 格式相比,LLaMA-Rider 则展现出了高采样效率和低训练代价的优势。即使在难度较简单、完成步数较短的木材相关使命上,RL 格式也难以夺得训练成效,表明强化进修的训练格式难以扩展到大动作空间以及复杂的场景中。而 LLaMA-Rider 在探究阶段只采用了 5-10 次的使命探究便完成数据搜集,在进修阶段也只在包含 1.3k 样本量的数据集上从事训练就夺得了效果提升。
作者进而发现,在对上述的 30 个使命从事探究进修后,LLaMA-Rider 在测试时对于进修过程中未探究过的更困难的铁矿相关使命,也能夺得效果的提升。这进一步体现了 LLaMA-Rider 进修到的决议才智的泛化性。
在消融实验中,作者操纵包含更多子使命的石头相关使命,验证了子使命重标记的格式对于使命成功率和使命泛化才智的关键作用。
除此之外,尽管 LLaMA-Rider 只进修了使命决议相关的数据,当作者利用使命相关的问题从事提问时,LLaMA-Rider 也给出了更准确的回答,表明它在训练过程中同样进修到了情况学问,证明 LLaMA-Rider 起到了与情况学问对齐的作用。
3、总结
作者提出了 LLaMA-Rider 的大言语模型训练框架,让大言语模型根据情况反应结合自身才智自决探究绽放全国,并根据搜集到的经验完成高效进修,在 Minecraft 情况中夺得了比包括 ChatGPT 使命规划器在内的其他格式更好的办理多使命的才智,让大言语模型获得了对绽放全国的适应性。此外,LLaMA-Rider 能操纵过去使命的经验办理新使命的泛化才智表明了该格式应用于大模型终身探究进修的前景。