让大模型自决探究绽放全国，北大&智源提出训练框架LLaMA-Rider

工程
23年11月7日
编辑

机器之心

大言语模型因其强大而通用的言语生成、理解才智，展现出了成为通用智能体的潜力。与此同时，在绽放式的情况中探究、进修则是通用智能体的重要才智之一。因此，大言语模型如何适配绽放全国是一个重要的研究问题。北京大学和北京智源人工智能研究院的团队针对这个问题提出了 LLaMA-Rider，该格式赋予了大模型在绽放全国中探究使命、搜集数据、进修策略的才智，助力智能体在《我的全国》（Minecraft）中自决探究获取学问并进修办理各种使命，提升智能体自决才智和通用性。

大言语模型因其强大而通用的言语生成、理解才智，展现出了成为通用智能体的潜力。与此同时，在绽放式的情况中探究、进修则是通用智能体的重要才智之一。因此，大言语模型如何适配绽放全国是一个重要的研究问题。

北京大学和北京智源人工智能研究院的团队针对这个问题提出了 LLaMA-Rider，该格式赋予了大模型在绽放全国中探究使命、搜集数据、进修策略的才智，助力智能体在《我的全国》（Minecraft）中自决探究获取学问并进修办理各种使命，提升智能体自决才智和通用性。

让大模型自决探究绽放全国，北大&智源提出训练框架LLaMA-Rider 自决探究绽放世

论文链接：https://arxiv.org/abs/2310.08922

代码链接：https://github.com/PKU-RL/LLaMA-Rider

1、情况反应驱动的探究与进修

LLaMA-Rider 着眼于让大言语模型 (LLM) 适应情况从而提高在情况中办理多使命的才智。LLM 在预训练阶段获得的学问与实际情况很可能存在不一致，这常常导致决议错误。为了办理这个问题，现有的格式有些操纵提示工程，通过和 LLM 频繁交互让其获取情况信息，不过并不更新 LLM；有些利用强化进修在线微调 LLM，不过其计算代价高且难以扩展到多使命和复杂使命。

LLaMA-Rider 对此提出了新的思路。它首先操纵情况的反应信息，靠 LLM 自身的才智在情况中探究，搜集成功经验。之后，LLaMA-Rider 将经验整合成监督数据集从事进修，更新自身的学问。这样一个两阶段的训练框架让 LLaMA-Rider 能够在 Minecraft 情况中的 30 个使命上夺得超过 ChatGPT 使命规划器的平均表现，并展现出对新使命的泛化才智。

让大模型自决探究绽放全国，北大&智源提出训练框架LLaMA-Rider

在探究阶段，LLaMA-Rider 操纵反应 – 修改机制来从事主动探究。在每个时间步上，LLaMA-Rider 接收文本化的情况信息和使命信息，并给出下一步的决议。由于与情况的学问差距，该决议可能无法在情况中执行并触发情况的反应信息，而该反应信息会再次输入给 LLaMA-Rider，引导其修改决议。凭借 LLM 自身的上下文理解才智和情况反应信息，LLaMA-Rider 可高效探究绽放全国。

为了将 LLM 的文本输出匹配到情况的动作空间，LLaMA-Rider 利用了一组预训练的技巧作为技巧库，并利用技巧检索模块将 LLM 的输出文本和技巧库中的技巧描述从事匹配，检索最接近的技巧。由于技巧描述和情况中的动作相比具有更多的语义，这种方式可以更大程度操纵 LLM 的才智。

此外，LLaMA-Rider 利用了子使命重标记的格式，在探究过程中用当前正在完成的子使命信息替换输入中的原始使命信息，让 LLM 在探究过程中能关注当下的子目标，提高使命成功率。

让大模型自决探究绽放全国，北大&智源提出训练框架LLaMA-Rider

在进修阶段，探究时搜集到的经验将会整合成监督数据集，用以对 LLM 从事监督微调 (SFT)。数据集中同样采用子使命重标记的格式让 LLaMA-Rider 进修到使命之间的子使命组合性，提高策略的泛化才智。

2、实验效果

LLaMA-Rider 利用的大言语模型为近期推出的 LLaMA-2-70B-chat。在 Minecraft 的三类共 30 个使命中，LLaMA-Rider 的表现超过了基于 ChatGPT 的使命规划器，并且经过进修后的 LLaMA-Rider 所能完成的使命数量也超过了它在探究阶段能成功的数量，展现出 LLaMA-Rider 对于绽放全国中持续进修和多使命办理的才智。

与强化进修 (RL) 格式相比，LLaMA-Rider 则展现出了高采样效率和低训练代价的优势。即使在难度较简单、完成步数较短的木材相关使命上，RL 格式也难以夺得训练成效，表明强化进修的训练格式难以扩展到大动作空间以及复杂的场景中。而 LLaMA-Rider 在探究阶段只采用了 5-10 次的使命探究便完成数据搜集，在进修阶段也只在包含 1.3k 样本量的数据集上从事训练就夺得了效果提升。

让大模型自决探究绽放全国，北大&智源提出训练框架LLaMA-Rider

作者进而发现，在对上述的 30 个使命从事探究进修后，LLaMA-Rider 在测试时对于进修过程中未探究过的更困难的铁矿相关使命，也能夺得效果的提升。这进一步体现了 LLaMA-Rider 进修到的决议才智的泛化性。

让大模型自决探究绽放全国，北大&智源提出训练框架LLaMA-Rider

在消融实验中，作者操纵包含更多子使命的石头相关使命，验证了子使命重标记的格式对于使命成功率和使命泛化才智的关键作用。让大模型自决探究绽放全国，北大&智源提出训练框架LLaMA-Rider

除此之外，尽管 LLaMA-Rider 只进修了使命决议相关的数据，当作者利用使命相关的问题从事提问时，LLaMA-Rider 也给出了更准确的回答，表明它在训练过程中同样进修到了情况学问，证明 LLaMA-Rider 起到了与情况学问对齐的作用。

让大模型自决探究绽放全国，北大&智源提出训练框架LLaMA-Rider

3、总结

作者提出了 LLaMA-Rider 的大言语模型训练框架，让大言语模型根据情况反应结合自身才智自决探究绽放全国，并根据搜集到的经验完成高效进修，在 Minecraft 情况中夺得了比包括 ChatGPT 使命规划器在内的其他格式更好的办理多使命的才智，让大言语模型获得了对绽放全国的适应性。此外，LLaMA-Rider 能操纵过去使命的经验办理新使命的泛化才智表明了该格式应用于大模型终身探究进修的前景。

给TA打赏

共{{data.count}}人

人已打赏

LLaMA-Rider 北京大学北京智源人工智能研究院

大幅提升用户举动表征通用性，蚂蚁新模型获CIKM 2023最佳应用论文奖

2023-11-6 14:44:00

马斯克第二款AI产品PromptIDE公布，Grok的开发离不开它

2023-11-7 14:48:00

0 条回复 A文章作者 M管理员

更换删除

暂无讨论，说说你的看法吧

TOP1

刚刚，AI颠覆物理模拟：一句话精准仿真，学术圈半壁江山联手耗时24个月研究成果
12月19日
TOP2

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物
12月19日
TOP3

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新
12月16日
2024年AI 编程现在可以做到什么程度？
12月18日
超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~
12月12日
腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践
12月11日
实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！
12月16日
抢跑OpenAI！谷歌Gemini 2.0震撼登场：全面转向Agent，多模态输入输出，免费随便玩
12月12日

❯

个人中心

今日签到

搜索

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

我的优惠劵

_￥_优惠劵
使用时效：无法使用
使用时效：
之前
使用时效：永久有效

优惠劵ID：
×
限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]
所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×
删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部