大模型的出现引发了智能体计划的革命性变革,在 ChatGPT 及其插件系统问世后,对大模型智能体的计划和开发吸引了极大的关注。帮助完成预订、下单等使命,协助编写文案,自主从网络上搜索最新的知识与新闻等等,这种通用、强大的智能助理,让大模型强大的语义理解、推理才智将之变成了可能。
OpenAI 首届开发者大会上,Sam Altman 展示了 ChatGPT 作为智能助理的可能性。
为了提升大模型智能体交互的功能和可靠性,目前学界已经提出了多种基于不同提示语技术的智能体框架,如将思维链结合至决议过程的 ReAct、利用大模型的自检查才智的 RCI 等。
尽管大模型智能体已经表现出强大的才智,但上述方案都缺乏让大模型智能体从自身的既往交互阅历中进修退化的才智。而这种持续退化的才智,正成为大模型智能体发展中亟待解决的问题。
一般来说,决议交互使命中通常会选用加强进修,基于过往交互行程来优化智能体的交互策略,但对于大模型来说,直接优化其参数的代价巨大。
Algorithm Distillation(算法蒸馏)等工作提出了 「即境加强进修」(in-context reinforcement learning)的概念,将加强进修训练过程输入预训练过的决议 transformer,就可以让模型在不需要革新参数的情况下,从输入的训练行程中进修到功能演进的模式,并优化下一步输入的策略。
然而这种模式却难以直接应用于文本大模型。因为复杂的观测、举措表示成文本需要消耗更多的词元(token),这将导致完整的训练行程难以塞入有限的上下文。
针对该问题,上海交通大学跨媒体语言智能实验室(X-LANCE)提出了一种解决方案:通过外置履历影象来保存大模型的交互历史,凭借加强进修来革新履历影象中的阅历,就可以让整个智能体系统的交互功能得到退化。这样计划出来的智能体构成了一种半参数化的加强进修系统。论文已由 NeurIPS 2023 接收。
论文地址:https://arxiv.org/abs/2306.07929
实验显示,通过该方法计划的 「忆者」(Rememberer)智能体,在有效性与稳定性上均展现出了优势,超越了此前的研究成果,建立了新的功能基准。
方法
「忆者」智能体的技术架构
该工作为 「忆者」 智能体计划了一种 RLEM(Reinforcement Learning with Experience Memory)框架,使得智能体能够在交互中,根据当前交互状态从履历影象中动态抽取过往履历来提升自身的交互行为,同时还可以利用环境返回的回报(reward)来革新履历影象,使得整体策略得到持久改进。
在履历影象中存储使命目标、观测、候选举措以及对应的累积回报(Q 值)。训练中,可以选用多步 Q 进修来革新影象池中记录的 Q 值 :
在推断过程中,智能体依据使命近似度与观测近似度,从履历影象中提取最近似的 k 条阅历,来构成即境进修(in-context learning)的典范。
由于训练过程中得到的阅历有成功的也有失败的,不同于此前基于履历影象的方法只利用成功的阅历,该工作提出了一种特别的输入体例来将失败阅历也加以利用。
这种输入体例称为 「举措建议」(action advice),即要求模型输入时同时输入推荐的(encouraged)与不推荐的(discouraged)举措及其 Q 值估计,从而促使模型能够进修到典范中部分举措的失败,并在新的决议中避免。
结果
该工作在 WebShop 与 WikiHow 两个使命集上测试了所提出的 「忆者」智能体。
测试了选用不同初始阅历、不同训练集构建的 「忆者」智能体,相比于 ReAct 及选用静态典范的基线,「忆者」不仅取得了更高的平均功能,而且功能对各种不同的初始化条件更加稳定,展现了巨大的优势。
同时还选用人类标注的履历影象(Rememberer (A))做了实验,证明了所计划的近似度函数提取出的动态典范的有效,同时也证明,加强进修训练相比人类标注的履历影象能够取得更好的功能。
消融实验的结果也证实了所选用的多步 Q 进修以及 「举措建议」输入体例的作用。
这一结果也证明,训练过程中,通过革新履历影象,「忆者」智能体的交互功能确实在逐步退化,进一步说明了所计划方法的有效。
结论
针对大模型智能体难以利用自身交互阅历退化自身交互功能的问题,上海交通大学跨媒体语言智能实验室(X-LANCE)提出了 RLEM 框架,计划了「忆者」智能体。实验结果显示,通过增强以外置履历影象,并辅以加强进修对履历影象革新,「忆者」智能体能够充分利用自身的交互阅历退化交互策略,显著提升在基准使命集上的功能。
该工作为大模型智能体退化自身功能,以及将大模型智能体与加强进修结合,提供了富有价值的方案和见解,未来或有机会在此方向上探索得更深更远。