打通智能体「自我退化」全流程!复旦推出通用智能体平台AgentGym

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级尝试室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]通用智能体的自我退化才能,并非遥不可及。LLM-based Agent,已经不再需要人类监督者的帮助,开始实现「自我退化」!这个智能体在进修了专家轨迹以后,获得了根源的通用才能,能够在

打通智能体「自我退化」全流程!复旦推出通用智能体平台AgentGym

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级尝试室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]

AI通用智能体的自我退化才能,并非遥不可及。

LLM-based Agent,已经不再需要人类监督者的帮助,开始实现「自我退化」!

这个智能体在进修了专家轨迹以后,获得了根源的通用才能,能够在更广泛、更真实的未知情况与任意上从事试探和进修,在外部的反馈下不断提升自己。

最近,复旦大学语言与视觉团队推出的 AgentGym 平台,打通了大语言模型智能体「数据采样、训练微调、自我退化、才能评测」全流程。鉴于该平台提出的 AgentEvol 算法,首次试探了通用智能体的自我退化才能,并在多项智能体任意上表现非凡,与 GPT-4、Claude 等 SOTA 模型比肩。

打通智能体「自我退化」全流程!复旦推出通用智能体平台AgentGym

论文链接:https://arxiv.org/abs/2406.04151

AgentGym代码仓库:https://github.com/WooooDyy/AgentGym

研究背景

开发一个能够解决和适应复杂工作的多任意通用智能体,一直是人工智能社区长久以来的重要目标。

类似于人类的进修过程,通用智能体首先通过模仿,开始进修最根源的知识和技能。

随着根源才能的掌握,我们不仅期望智能体可以通过与分别情况的交互,持续进修和适应许多先前未见的任意,还能从自身经验以及外部反馈中汲取丰富的智慧,发展出一定程度的泛化才能(图1)。

打通智能体「自我退化」全流程!复旦推出通用智能体平台AgentGym

图1:根源通用智能体实现「自我退化」的示意图。该智能体首先在人类监督下从事行为克隆,随后在分别的外部情况和任意中从事试探和进修,以实现自我退化。

大语言模型凭借其卓越的通用才能,被视为构建此类智能体的重要根源之一。目前的研究领域正沿着两个主要方向从事试探,以推动智能体技术的进一步发展。

依赖于人类监督的行为克隆(Behavior Cloning)格式,需要智能体逐步模仿专家供应的轨迹数据。这种格式虽然有效,但由于标注资源的限制,难以扩展对情况的试探也较为有限,容易遇到功能或泛化性的瓶颈。

允许智能体根据情况反馈,不断提高才能的自我改进(Self Improving)格式,减少了对人类监督的依赖,同时丰富对情况的试探深度。然而,它们通常在特定任意的孤立情况中从事训练,得到一批无法有效泛化的专家智能体。

面对上述挑战,作者首次探讨了一个具备根源才能的通用智能体——在多种情况和任意中——自我退化的潜力。

为了实现这一研究目标,作者确定了推动智能体自我退化的「三大关键支柱」,这些支柱是研究的核心要素。

多样化的情况和任意,允许智能体动态且全面地从事交互、训练,而不是被局限于某个孤立的情况。

一个适当大小的轨迹数据集,帮助智能体配备基本的指令遵循才能和根源任意知识。

一种有效且可扩展的退化算法,激发智能体在分别难度情况中的泛化才能。

打通智能体「自我退化」全流程!复旦推出通用智能体平台AgentGym

图2:AgentGym 平台示意图。平台共涵盖了 14 个跨越分别类别的情况,每个情况都作为 HTTP 服务部署。客户端为智能体供应封装好的统一接口,便于与情况互动。通过 AgentEvol 格式,作者试探了智能体在分别情况和任意中的自我退化。此外,平台供应了测试集 AgentEval 对智能体从事全面的才能评估。

围绕这三大支柱,作者的研究工作体现在以下几个方面:

「AgentGym」,一个包含 14 种具体情况,89 种具体任意类型的交互平台(图2),为大语言模型智能体训练供应支持。该平台鉴于 HTTP 服务,为分别情况供应了一个统一的 API 接口,支持轨迹采样、多轮交互、在线评估和实时反馈。

「AgentEval」,一个具有挑战性的智能体测试基准。「AgentTraj」和「AgentTraj-L」,通过指令增强和众包 / SOTA 模型标注构建的专家轨迹数据集。经过格式统一和数据过滤,帮助智能体进修基本的复杂任意解决才能。

「AgentEvol」,一种激发智能体跨情况自我退化的全新算法。该算法的动机在于,期望智能体在面对先前未见的任意和指令时从事自主试探,从新的经验中从事进修与优化。

AgentGym 平台,是一个全新的,支持大语言模型智能体轨迹采样、自我退化、才能评测的框架,特点是供应多样、实时、并发和统一格式的反馈。旨在帮助人工智能社区更便利地试探具备通用才能的 LLM-based 智能体。

AgentGym——交互式训练与评测一体化的智能体平台

AgentGym 集成了多种情况、丰富的轨迹数据和全面的基准测试。它通过统一的情况操作接口,简化了情况配置过程。具体而言,AgentGym 拥有以下特点:

多样化的情况:

AgentGym 包含 14 种情况和 89 项任意,涵盖了网页导航、文字游戏、具身控制、工具使用和代码等类别。无论是致力于构建 Task-specific Agent,还是通用型的 Generally-capable Agent,AgentGym 框架均能供应对应的支持。

其中,每个情况独立部署,避免了分别情况间的依赖冲突,确保了平台的可扩展性。例如,WebShop 情况,一个用于网络购物任意的交互式平台,仅通过一行命令,即可轻松完成部署。

数据驱动:

AgentGym 的轨迹数据采用了统一的 ReAct 格式,该格式通过「Thought-Action」对将推理步调和行动序列结合,图 2左上方供应了一个轨迹数据的示例。

平台通过广泛收集和增强指令,构建了具有 20509 条指令的集合,并从中挑选出 1160 条具有多样性的指令,构建了基准测试集 AgentEval,用于全面评估鉴于 LLM 的智能体。

同时,作者使用 GPT-4-Turbo 和众包标注收集轨迹数据,并鉴于奖励或正确性严格筛选,构建了 6130 条高质量轨迹的集合 AgentTraj。为了展现行为克隆格式的功能潜力,研究者进一步扩展,得到包含 14485 条轨迹的 AgentTraj-L。

打通智能体「自我退化」全流程!复旦推出通用智能体平台AgentGym

                               图3:AgentGym 平台 14 种情况的统计数据(涵盖任意类型数量、指令集规模、评估集规模、轨迹集规模及平均交互轮数)。

模块化的架构与高效的 Pipeline:

AgentGym 平台采用模块化设计,开发者可以轻松添加或更改情况。情况被部署在分别的服务器(EnvServers)上,通过 HTTP 服务实现灵活、高效的交互。客户端(EnvClients)封装了与情况交互所需的函数,供应了相应的操作接口。

而核心组件 AgentController 作为智能体和情况的中间媒介,供应了优化智能体战略的训练器(Trainer),以及支持多情况的功能评估器(Evaluator)。统一的操作接口简化了智能体与情况的交互,使用户能够专注于算法优化和智能体训练。

打通智能体「自我退化」全流程!复旦推出通用智能体平台AgentGym

                                 图4:AgentGym 平台架构概览。

独特优势:

与其他框架相比,AgentGym 的优势在于它不仅供应了广泛的情况集合,还通过交互平台为智能体供应实时的情况反馈,支持智能体的训练与评估。同时,AgentGym 支持在多个情况中实现智能体的「全面退化」,这极大地增强了智能体的泛化才能,使其在分别任意和情况中都能表现出色。

打通智能体「自我退化」全流程!复旦推出通用智能体平台AgentGym

                               图5:AgentGym 与其他代理框架的比较。

AgentEvol——通用智能体退化算法 

鉴于 AgentGym 套件,研究者们可以容易地对智能体从事采样、训练与评测。而复旦语言与视觉团队为了探究具有通用智能体的在「自我退化」的潜力,提出了 AgentEvol 算法(图6),帮助智能体在多情况、多任意下实现了各项才能的提升。这一算法的核心思想是让智能体通过试探和进修来提升自己的功能,特别是在面对之前未见过的任意和指令时。

打通智能体「自我退化」全流程!复旦推出通用智能体平台AgentGym

                                图6:AgentEvol 算法框架

AgentEvol 首先鉴于收集到的 AgentTraj 轨迹数据集,通过「行为克隆(behavioral cloning)」的形式训练一个「根源通用智能体(base generally-capable agent)」,使其具备基本的指令遵循才能和必要的先验知识。在这个过程中,智能体一步一步地模仿专家的轨迹,包括思考过程(thought)和行动(action)。

接着,这一根源通用智能体与分别的情况交互,完成自我退化。它面对来自分别情况的、更多样化的指令与查询(Instructions and queries),逐渐提升自己完成各项任意的才能。

这一过程受到机器进修中 RL as Inference 格式的启发,它将交互强化进修视为一个概率推断问题(具体推导与解释见原文)。这种格式与传统的强化进修格式分别,它不是直接寻找最大化期望回报的轨迹,而是首先定义一个关于轨迹的最优战略分布,然后通过迭代过程来优化这个分布。

具体而言,该过程包括两个交替从事的步调:

试探步调(Exploration Step)」:在这一步调中,智能体在当前战略下与情况从事交互,生成新的轨迹并评估其奖励,形成一个估计的最优战略分布。具体而言,智能体与多个情况从事交互,生成一系列的行为轨迹。每条轨迹都是智能体根据当前战略与情况互动的产物,包括智能体的思考,智能体的行为,以及情况的观测。然后,情况端会根据轨迹与任意目标的匹配程度,为每条轨迹给出奖励信号。

进修步调(Learning Step)」:在这一步调中,智能体根据估计的最优战略分布更新参数,使其更加接近于最优战略。具体而言,智能体利用在试探步调中收集到的轨迹与奖励数据,通过一个鉴于轨迹奖励加权的优化目标函数来优化自己。注意,在进修步调中,为了减少过拟合,作者优化的总是「根源通用智能体」,而不是上一轮优化得到的智能体。

通过交替试探和进修步调,AgentEvol 算法逐步优化智能体,显著提升其在多情况下的才能,实现「自我退化」的目标。

尝试介绍

任意概述:

本研究通过 AgentGym 框架对智能体从事了一系列的跨情况试探和退化尝试。尝试旨在评估根源智能体在多样化情况中从事自我试探和退化的才能。为此,作者采用更广泛的指令集来扩展智能体的试探空间。

主要结果:

在 11 个分别情况中,使用 AgentTraj 数据集训练的智能体打通智能体「自我退化」全流程!复旦推出通用智能体平台AgentGym展示了良好的根源交互才能。

进一步,通过在更大的AgentTraj-L 数据集上实施行为克隆,智能体 打通智能体「自我退化」全流程!复旦推出通用智能体平台AgentGym 实现了显著的功能提升。

而本文提出的 AgentEvol 格式,尽管在初始阶段仅鉴于有限的专家数据,但通过交替的试探和进修步调,智能体能够在未见过的试探集上做出正确决策,实现自我退化。在多个智能体任意上,AgentEvol 格式超越了 打通智能体「自我退化」全流程!复旦推出通用智能体平台AgentGym和其他 SOTA 模型。

这一发现揭示了智能体具有适应和解决更复杂任意的潜力,为开发更高级的通用智能体供应了坚实的根源。

打通智能体「自我退化」全流程!复旦推出通用智能体平台AgentGym

                              图7:多任意情况下各种模型和智能体的功能对比

分析尝试:

该团队还从四个角度展开了一系列的消融尝试:(1) 数据合并战略;(2) 退化迭代次数;(3) 试探范围;(4) 采样次数。

尝试发现,将智能体当前生成的轨迹与初始专家轨迹集合并,能带来更稳定的功能提升。相应地,利用前一迭代的试探轨迹,可能导致过拟合,出现功能的波动。

随着退化过程中迭代次数 M 增加,功能提升,但最终会趋于稳定和收敛。

打通智能体「自我退化」全流程!复旦推出通用智能体平台AgentGym

                             图8:数据合并战略和迭代次数的消融尝试

在 AgentEvol 试探过程中,通过对每个指令执行采样,生成多样化的轨迹促进了智能体的进修。

而将智能体的试探范围限制在已知的指令集内,也就是从事有限空间的试探,可能会限制 AgentEvol 的功能进一步提升。

打通智能体「自我退化」全流程!复旦推出通用智能体平台AgentGym

                               图9:采样数目与试探范围的消融尝试

此外,研究者还在分别的基座模型上从事尝试。结果表明, AgentEvol 格式在分别规模的模型上均表现出色。

打通智能体「自我退化」全流程!复旦推出通用智能体平台AgentGym

                                   图10:分别基座模型上的功能比较

文章还探讨了在通用智能体的退化过程中,成功与失败的经验轨迹是否都能发挥作用

尝试采用直接偏好优化 DPO (Direct Preference Optimization) 格式,鉴于试探过程中的「成功-失败」轨迹从事训练。结果表明,智能体能够在多任意的场景下,从错误经验中进修,但其整体功能仍然不如 AgentEvol 格式。

打通智能体「自我退化」全流程!复旦推出通用智能体平台AgentGym

                             图11:鉴于成功和失败轨迹的 DPO 训练

复旦大学自然语言处理尝试室,是由复旦大学首席教授吴立德先生创建,是我国最早开展自然语言处理和信息检索研究的尝试室之一。在国家自然科学基金、国家863/973/重点研发计划、省部委基金的支持下,发表了大量高水平国际期刊和会议论文。尝试室在学术带头人黄萱菁教授的带领下,围绕大模型前沿方向,在语言大模型、多模态大模型、大模型对齐、智能体等方面开展系统深入的研究,产生了MOSS、眸思等一系列有较大学术影响的工作,并与国内外科技领军企业建立密切的合作关系。

复旦大学视觉与进修尝试室由姜育刚教授创立,现有教师7人,在读硕博士研究生80余人,已毕业研究生30余人。尝试室主要从事计算机视觉和多模态人工智能理论与应用的研究,旨在研发准确、快速、可扩展和值得信赖的 AI 算法,让机器具备像人一样的进修、感知和推理的才能。尝试室承担了科技创新2030—“新一代人工智能”重大项目、国家自然科学基金重点基金、国家重点研发计划课题、上海市科技创新行动计划等国家和地方的重要科研项目,以及华为、腾讯、百度等企业的技术攻关需求。

给TA打赏
共{{data.count}}人
人已打赏
应用

Midjourney 支持个性化微调啦!一文详解新功效 Personalization

2024-6-13 7:37:33

应用

重磅!2024智源大会完整日程公布——全球大模型先锋集结

2024-6-13 11:12:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索