有结构化推理和先验知识,智能体变得更加通用了。
自 AI 诞生以来,开发能够解决和适应复杂工作的多任意智能体(Agent)一直是个重要的目标。
AI 智能体对于许多应用至关重要,研究者通常用加强进修要领通过情况交互来培养智能体的决策技能。基于模型和无模型的深度加强进修要领都已取得了广为人们所知的成就,例如 AlphaZero、改进的排序和乘法算法、无人机竞速以及聚变反应堆中的等离子体控制。这些成功涉及一个标准的加强进修管道,智能体在其中进修我们所说的外在功能 —— 一种直接与外界交互的策略,即响应情况刺激以最大化奖励信号。该函数通常是参数化神经网络,根据情况观察生成动作。
经典的加强进修要领运用单个映射函数来定义策略 π,但在复杂的情况中通常被证明是不够的,这与通用智能体在多个随机情况中交互、适应和进修的目标相矛盾。
在加强进修中引入的先验通常是特定于任意的,并且需要广泛的工程和领域专业知识。为了泛化,最近的研究已转向将大型语言模型(LLM)集成到智能体框架中,如 AutoGen、AutoGPT 和 AgentVerse 等工作。
近日,来自华为诺亚方舟实验室、伦敦大学学院(UCL)、牛津大学等机构的研究者提出了盘古智能体框架(Pangu-Agent)尝试来解决 AI 智能体面临的挑战。该研究作者包括伦敦大学学院计算机系教授汪军。
论文链接:https://arxiv.org/abs/2312.14878
该工作在两个关键方面区别于先前的框架:i)将智能体的内部思维过程形式化为结构化推理的形式;ii)展示了通过监督进修和加强进修来微调智能体的要领。
标准加强进修侧重于直接进修从感知中输出行动的策略。虽然人们习惯于通过深度网络架构参数化策略,但作者认为,当通过基础模型策略跨任意扩展智能体时,标准 RL 管道中缺乏固有推理结构可能会成为一个重大瓶颈,因为梯度无法为所有深度网络提供足够的监督。
盘古 Agent 框架展示了结构化推理如何帮助加强进修克服这些挑战,利用大规模基础模型提供先验知识并兑现跨广泛领域的泛化能力。
据介绍,该工作的主要贡献包括:
证明了结构化推理在智能体框架中的重要性,盘古 Agent 的通用性足以有效涵盖现有智能体框架的任意范围。作为一个元智能体框架,它可以利用内部函数调用的顺序进行调整或微调,或者将决策委托给底层 LLM。运用者也可以轻松扩展智能体的功能,并组合或重用许多已经兑现的要领。
作者在七个 LLM 和六个分歧领域上进行了评价。该评价可用于告知研究人员如何初始化其智能体以及如何收集微调步调的数据。
研究证明了框架的监督微调(SFT)和加强进修微调(RLFT)的影响。通过结构化推理,该工作成功兑现了基于拒绝采样的 SFT 管道,大幅提高了 LLM 在 ALFWorld 领域的表现,成功率从 27% 增加到 82%。尽管 SFT 的好处已趋于稳定,但通过 RL 可以兑现进一步增强,将 BabyAI 任意的成功率提高到 88%,甚至从 28% 提高到 91%。此外,跨领域实验显示通过 RL 管道训练的单个 LLM 能够同时在 ALFWorld (82%) 和 BabyAI(18 项任意中平均 58.7%)领域兑现高性能。
这些发现凸显了结构化推理在基于大模型的智能体训练方面存在不小潜力。
表 1:盘古 Agent 与最近一些大模型智能体的比较。
图 2:三个外在函数的可视化,展示了该工作提出的范式在提高代理的模块化和灵活性方面的重要性。用户可以重新定义和重新配置外在函数,例如 µ1 (・) 以 LLM 作为输入来产生想法,或 µ2 (・) 利用工具来帮助改进推理。新智能体还支持嵌套这些外在函数来构建更通用的模块,以完成复杂且具有挑战性的决策任意。
Pangu-Agent 的范式
为了引入结构化推理,我们假设一系列外在函数 µ(・) 作用于并转换智能体的内部记忆。引入这些外在函数可以将典型的加强进修目标重新表述为支持多个「思考」步调的目标。因此,典型的 RL 目标旨在找到一个以观察 o→ 的历史为条件的策略 π,以最大化回报 R,即 maxπ(・) R (π(・|o→)) 可以运用嵌套集重写(参见图 . 2) 内函数 µ→ (・) 为:
作者强调需要将这些函数与外部函数分开定义、进修和运用,这样用户就可以重新定义任何被认为对其任意有帮助的任意嵌套。我们可以根据方程重写盘古智能体的优化问题。更详细的形式为:
其中 rt 是时间步 t 的奖励,取决于情况观察 ot 和行动 at。此外,γ ∈ [0, 1) 是一个折扣因子,指定奖励随时间折扣的程度。外部函数仍然充当与外界交互的执行器,而那些额外分层的内部函数旨在封装系统架构师认为有益的任何内部推理过程。
有关 Pangu-Agent 的框架结构,外在函数是对代理的内存状态进行操作的一系列函数。外在函数对于塑造智能体的内部状态至关重要,并且可以影响其决策过程。通过利用这些功能,智能体可以根据观察历史和先前的知识调整其记忆状态,从而做出更明智且适合上下文的决策。
外部函数的目的是从语言模型中引发情况交互。与对智能体的内存状态进行操作的内部函数分歧,外部函数通过生成要执行的动作来直接与情况交互。
盘古 Agent 公式的灵活性意味着可以分层创建许多复合要领。此外应该指出的是,该工作在盘古 Agent 代码库中提供的这些复合要领的兑现并不总是原始算法的忠实再现,因为它们需要特定的任意细节。
受到最近搜索增强的 LLM 研究的启发,盘古 Agent 框架集成了三种树搜索算法 – 广度优先 / 深度优先搜索 (BFS/DFS) 和 蒙特卡洛树搜索(MCTS),以提高 LLM 的生成和决策能力的规划能力。具体来说,该框架利用 LLM 作为策略、模型和价值函数。通过与这个基于 LLM 的模拟情况交互,我们就可以构建一个 rollout 树,该树将运用树搜索算法进一步修剪,以兑现更好的操作 / 生成效果。
盘古 Agent 兼容一系列任意,例如 ALFWorld、GSM8K、HotpotQA、WebShop 等。它的交互界面与 OpenAI Gym 类似,是一种开放式设计。
最后,该框架包含一个模板系统来为 LLM 生成输入提醒词(Prompt),运用模板增强了提醒制作的灵活性。
评价
最后,研究者对 Pangu-Agent 支持的各种要领进行了广泛评价。
首先,他们考虑用一阶嵌套法和复合法来评价 Pangu-Agent 的结构推理能力(图 3);然后,运用监督进修和 RL 在三种分歧的情况中评价 Pangu-Agent 的微调能力。结果表明,就 Agent 取得的收益而言,复合要领往往优于一阶嵌套要领。研究者表示,SFT 和 RLFT 可以让 Agent 兑现专业化,并进一步提高其在 ALFWorld 和 BabyAI 任意中的收益。在整个评价过程中,研究者运用了多种 LLM,如 GPT、Llama 2、OpenChat、Vicuna 和 Mistral 进行测试。
结构化推理评价
通过对外在函数(Intrinsic Functions)的内置支持,可以评价推理结构中的分歧设计选择对 AI 智能体性能的影响。
首先在表 2 中,研究者评价了一阶嵌套,即只通过观察情况和对情况执行的操作来修改智能体记忆的设置。在文献中,这些要领被简单地称为分歧的提醒要领,例如:少样本提醒法 (FS)、少样本思维链 (FS-CoT) 、零样本思维链(ZS-CoT)。这些要领的详细介绍见附录 A.1。
需要注意的是,由于 LLM 文本生成的非确定性,分歧的运行所获得的回报可能会有很大差异。为了考虑这些差异,研究者将任意 – 要领 – LLM 的每种组合运行三次,并报告平均标准偏差。但是,一阶嵌套也有局限性,因为它们可能难以充分利用 LLM 的能力。正如此前所述,智能体需要能够处理语言模型的输出、重新查看其答案、更改其记忆,甚至运用工具。这里所说的复合要领是指在决定最终行动之前可能需要多个思考步调的要领。
表 3 列出了四种复合要领的结果:具有自一致性的 FS-CoT(FS-CoTSC)、具有可选独立思考步调的 FS-CoT(如 React )、具有映射步调的 FS-CoT(如 66)、SwiftSage 和 Least-to-Most(另见附录 A.2)。所有这些要领都在每个情况时间步运用了多个固有函数步,缩略语的简要说明可参见表 7。
研究者观察到,结构相似但提醒内容分歧的要领为智能体带来的收益却大相径庭,这说明了精心设计提醒的重要性。同样值得注意的是,分歧的要领在某些 LLM 中比在其他 LLM 中效果更好,例如 React 在 OpenChat-3.2 中的平均表现比 FS 差,而 React 和 FS 在 GPT-3.5 中的平均收益表现类似。
值得注意的是,在所有 LLM 中,FS 在 GSM8K 中的性能比 Direct 差很多。这并不奇怪,因为 FS 只向 LLM 提供最终答案。因此,LLM 的目的是回答问题,而不需要生成中间步调。然而,在 Direct 中,即使没有明确要求,LLM 也会生成中间步调,因为互联网上类似的小学水平问题就是这样呈现的,而这些问题很可能就包含在这些 LLM 的训练集中。在将 ZS-CoT 与 FS 进行比较时,也能得出类似的结论。
这一点在较小的 LLM 中尤为明显,研究者推测,如果在提醒中添加「逐步思考」(think step-by-step)的引语,模型就更有可能生成能够正确解决当前问题的推理步调。
在 HumanEval 任意中,研究者观察到 GPT-3.5 与其他模型的收益率差距明显大于其他任意。这可能是由于 HumanEval 是一项编码任意,需要 LLM 提供结构良好的响应。然而,较小的开源 LLM 更容易出现这些结构性错误,从而导致任意失败并得到 0 的返回值。
妨碍 LLM 性能的另一个因素是有限的上下文长度。在 WebShop 等涉及相对较大观测值的任意中,提醒的长度需要截断,以保持在允许的上下文长度范围内。因此,LLM 在这项任意中的表现会受到很大影响,特别是在 Reflect 等要领中,提醒中还会包含额外的信息。这也解释了为什么 Reflect 要领在 WebShop 中的表现往往不如其他要领。
在某些情况下,FS-CoT-SC 可以提高 LLM 的收益,尤其是在 GSM8K 中。但是,这需要付出额外的代价,即需要多次提醒 LLM(本实验中为 5 次)以执行 SC 操作选择。在 HumanEval 等任意中,答案包含较长的文本答案,可能会有多个答案产生正确的结果,研究者发现无法应用 SC。这是因为 LLM 不会生成与之前相同的答案,而 SC 操作选择器无法选择最常见的答案。
外在函数评价:微调
上述结果表明,虽然 LLM 在兑现各种任意的回报率方面表现出色,但在兑现 100% 成功率方面仍有很大的改进空间。随后,研究者探讨了 SFT 和 RLFT 如何帮助 Pangu-Agent 提高成功率。
他们提出了两种分歧的流程:一种是由 multi-turn 轨迹生成和 SFT 组成的 Bootstrap SFT (BSFT),另一种是由轨迹生成、SFT 和 RLFT 组成的三步流程。在执行 SFT 时,专家轨迹演示始终运用 OpenChat-3.5 LLM 收集,该 LLM 配备了 Pangu-Agent 框架的结构化推理能力。研究者运用 OpenChat-3.5 LLM 执行 BSFT,而 SFT-RLFT 管道则应用于 Llama 2-7B LLM,并考虑了两种分歧的评价范式:为每个任意微调分歧的 LLM,以及在多个任意中微调一个 LLM(例如多任意微调)。
One Model per Domain
BSFT:第一个实验展示了 Pangu-Agent 框架提供的固有函数和微调函数的结合。首先从一系列分歧的提醒要领中收集数据,特别是 ZS-CoT、FS-CoT、FS-CoT-React 和 FS-CoT-Reflect。收集完数据后,运行一个拒绝采样步调,丢弃失败的轨迹,只保留在折扣回报方面表现最好的轨迹。然后可以在该数据集上执行 SFT 步调,以进一步提高该要领的性能。表 4 中 「1-step SFT」一栏列出了经过单一 SFT 步调训练后的模型结果。
如表 4 ,经过一轮拒绝采样后,可以在 ALFWorld 中取得很好的性能,同时保持模型在行动前产生想法的能力。
SFT-RLFT: 尽管如此,对这些固有函数生成的完整轨迹进行微调的计算成本很高,而且很快就会达到收益递减的地步。研究者建议运用 RL 在各种任意中兑现更高的性能。
如表 5 ,研究者首先对成功演示进行 SFT 微调,然后再进行 RL 微调,成功率的提高幅度最大。对于像 ALFWorld 这样的复杂领域,用于轨迹生成的 SFT 步调和固有函数(FS-CoT)至关重要。这说明了 Pangu-Agent 框架的重要性,在该框架中,可以从固有函数和微调中获益。
更多研究细节,可参考原论文。