开源版「ChatGPT Plus」来了,能做数据分析、插件挪用、自动上网,落地真正世界的智能体

OpenAI ChatGPT Plus 订阅付费功能强大,可以实现高阶「数据分析」(Advanced Data Analysis)、「插件挪用」(Plugins)以及「自动网页精读」(Browse with Bing),能够作为日常生活中的重要生产力东西。可是因为商业原因而选择了闭源,钻研者和开发者也只能应用而没有办法在其上面做任何的钻研或改进。鉴于此,来自香港大学、XLang实验室、Sea AI实验室和Salesforce的钻研者联合打造了一款用于真正世界生产力东西的开源智能体框架——OpenAgents,并开源

OpenAI ChatGPT Plus 订阅付费功能强大,可以实现高阶「数据分析」(Advanced Data Analysis)、「插件挪用」(Plugins)以及「自动网页精读」(Browse with Bing),能够作为日常生活中的重要生产力东西。可是因为商业原因而选择了闭源,钻研者和开发者也只能应用而没有办法在其上面做任何的钻研或改进。

鉴于此,来自香港大学、XLang实验室、Sea AI实验室和Salesforce的钻研者联合打造了一款用于真正世界生产力东西的开源智能体框架——OpenAgents,并开源了全栈代码(完整前后端,钻研代码),以满足从钻研者到开发者再到用户的所有人的需要。

OpenAgents 用鉴于「大说话模型」(LLMs)的技术和全栈工程代码尝试近似复刻了 ChatGPT Plus 的功能。智能体能执行 Python/SQL 代码,熟练挪用东西,也能上网找地图发帖子,一路从钻研代码实现到后端前端,让其变成了人人都能用的落地级别运用。OpenAgents 完整披露了他们采用的技术和遇到的困难,完全开源了代码,包含从科研到逻辑代码到前端代码的一切。代码完善、易于拓展,本地直接可以一键部署,配套供应了含有丰富的应用案例的文档,帮助钻研者和开发者在模型上搭建自己的智能体和运用。

开源版「ChatGPT Plus」来了,能做数据分析、插件挪用、自动上网,落地真正世界的智能体

                                  OpenAgents 总览图,面向用户的网页界面,面向开发者的本地部署,面向钻研者的说话智能体。

开源版「ChatGPT Plus」来了,能做数据分析、插件挪用、自动上网,落地真正世界的智能体

代码链接:https://github.com/xlang-ai/OpenAgents

论文链接:https://arxiv.org/abs/2310.10634

Demo 链接:https://chat.xlang.ai/

文档链接:https://docs.xlang.ai/

与 ChatGPT Plus 的 “一样” 和 “不一样”

左边是 OpenAgents 的实现,右边是 ChatGPT Plus:

开源版「ChatGPT Plus」来了,能做数据分析、插件挪用、自动上网,落地真正世界的智能体

先来看看「数据分析」功能。同一个分析股票价格的任务,OpenAgents 和 ChatGPT 都能不错地完成用户对股价和交易的分析要求。不过 OpenAgents 可以自动搜索 Kaggle 数据集并下载,ChatGPT 需要用户从本地上传。

开源版「ChatGPT Plus」来了,能做数据分析、插件挪用、自动上网,落地真正世界的智能体

再试试 OpenAI 最早推出的「插件」功能。用户想要画一些八面体,两者都成功挪用了 Wolfram 插件画出多种八面体的图片。

开源版「ChatGPT Plus」来了,能做数据分析、插件挪用、自动上网,落地真正世界的智能体

最后看看「网页精读」。用户想要查询 10 月 20 日从中国香港到纽约的机票,OpenAgents 识别用户意图后直接跳转到 Skycanner,像 “真人” 一样一边思考一边在网站中填入信息,最后回到聊天页面总结信息;而 ChatGPT 处于安全考虑保证可控性,和挪用插件类似,在云端做网页精读,将最后搜寻到的信息返回。

由于 OpenAgents 供应了开源的代码,开发者和钻研者可以定制,若干行代码适配自己想要的模型,改进、创造自己想要的功能,甚至创造新的 Agent。这对于该方向的进一步开展开发和钻研至关重要。

看似简单,「生产力能用」的智能体为什么踩坑这么多?

智能体的开源框架不少,鉴于大模型的中间件更是层出不穷,为什么搭建一个真正方便可用的智能体并不容易,OpenAgents 在他们论文中与其他智能体框架进行了对比:

开源版「ChatGPT Plus」来了,能做数据分析、插件挪用、自动上网,落地真正世界的智能体

                                   对比 OpenAgents 和其他的框架。

从表格中可以看出,「界面」(Interface) 和「配套环境」(Environment) 是 OpenAgents 与众不同的两个因素。现有的开源框架比如 LangChain,AutoGPT 和 BabyAGI 等旨在为开发者供应早期概念验证实现和控制台界面,但在真正世界中却不够鲁棒,这限制了更广泛受众的接入,特别是那些不熟悉编程或控制台的普通用户。而在闭源体系中,OpenAI 在 ChatGPT Plus 中部署了精心设计的产品,尤其是高级数据分析(之前称为代码解释器)、插件和 Bing 精读等功能,利用进一步训练的模型、业务逻辑代码和培育的软件社区(例如,插件商店)。但是闭源导致它们难以作为开发和钻研平台应用,社区无法站在巨人肩膀上探索、评价和改进。在侧重考量这些维度之后,OpenAgents 作为面向真正场景的开源 Agent 框架,为社区供应了一个可与 ChatGPT Plus 一较高下的平台。

在「界面」上,OpenAgents 供应线上的网页 demo (以及配套的开源代码),非程序员背景的普通用户也可轻松与智能体进行交互,而之前的工作通常不供应或者以「控制台指令界面」(CLI) 形式供应交互,极大地提高了智能体的应用门槛。在「配套环境」上,OpenAgents 支持真正世界环境和可控环境,支持超过 200 + 的日常东西挪用,支持网页自动精读。

这些功能侧重和配备使得 OpenAgents 成为对于普通用户最没有门槛的选择;也为钻研、开发人员等供应可能是最好的直接面向用户的机会。

作为生产力的 Agent 未来的第一步:「用户」,「开发人员」,「钻研人员」都能用的 Agent 平台

为了解决上述问题,OpenAgents 的动机是作为一个开源平台,为应用和部署智能体供应,目前包括三个关键智能体:

用于 Python 和 SQL 的数据智能体;

200 多个东西应用的插件智能体;

自动网络精读的 Web 智能体。

OpenAgents 相信,为了让大说话模型发挥其全部潜力,它们必须从纯粹的理论或面向开发者的东西转变为为广泛用户群供应的动态、交互式系统。「普通用户」可以通过在线 Web UI 轻松探索智能体功能,无需编码专业知识。此外,OpenAgents 为「开发者」供应完整的业务逻辑和钻研代码,以便在本地轻松部署,「钻研人员」可以进一步建立说话智能体。最后,OpenAgents 旨在成为一个真正而全面的人类可交互的智能体评价平台:根据真正需求,真正用户与智能体互动以完成其任务,并记录整个用户 – 智能体互动过程和用户反馈以供进一步评价。与现有的基准测试和平台相比,OpenAgents 供应了一个真正环境,智能体可以满足各种真正的用户需求。

面临和克服的寻衅

寻衅 1: 鉴于提示来建立真正世界说话模型的弊端

在为真正用户建立鉴于提示的运用程序时,应用提示中的指令来设定特定要求。这些指令有不同目的,有一些是为了确保大说话模型的输出符合后端逻辑处理的特定格式(以特定键的字典形式输出);有一些是提升输出的美观度(尽可能一条条单独列出项目);有一些是用于防止潜在的攻击(拒绝用户恶意构造的无限循环程序并且执行)。

这些带着约束目的提示来约束说话模型需要开发者钻研者反复调试出来一些可以应用的指令,这些指令加在一起通常会是几百个「词元」(token)甚至上千个词元,这些指令作为前缀会被反复输入到模型造成显卡资源的大量消耗;另外一方面,词元越多越依赖 LLM 有很好的性能,所以说这一条技术路线对大说话模型的指令跟踪能力和支持的上下文长度提出了一定的要求。

当前的开源模型在这些方面已经取得了显著的改进,但是在实验中仍然是不足以用来实际应用的,这方向的钻研还可以继续。此外,需要更加重视智能体模型的基础开发和钻研,以及针对特定领域和要求训练专用的智能体模型。这种方法可能比仅依赖于提示一个通用强大但固定模型更高效,也更可控。

寻衅 2: 无法控制的现实因素

实现真正世界的说话智需要面对很多无法控制的现实因素,这些因素包括用户行为、互联网的基础设施和业务逻辑等,它们在过去的钻研中并未得到充分建模。这就需要重新评价,甚至推翻许多过去钻研中的假设和方法。必须考虑到的事是,挪用的 API 所在的服务器可能会崩溃。这种情况需要监控并稳定地完成用户命令,而不是像过去的东西应用钻研中所假设的那样。在生成回复的过程中,用户可能会感到不满意,这可能导致说话模型在生成过程中被中断。

此外,像 CAPTCHA 弹出或广告改变网页这样的不可预测事件,可能会在相对稳定的网页结构中引入一定程度的随机性,这在以前的自动精读网页的工作中未曾考虑过。诸如此类的问题还有很多,比如说在智能体反应和思考的时间内(现在往往需要数秒)就改变的环境,等等。

寻衅 3: 来自真正场景的额外指标

具体的钻研通常过于强调性能指标,而忽视了现实场景中的基本需求。例如,应用流式(即每生成一个词元都尽快显示给用户)可以让用户能够快速感知系统的反馈,而无需等待长篇大论的文本生成完毕再一起看到。特意设计的提示可以让智能体的回复格式更加美观,这对用户体验有着显著影响。然而,现有的方法并未充分考虑这些影响。导致了尽管在准确性上的性能指标优秀,但在实际运用中,它们可能导致响应时间过长、文本可读性差等等导致用户体验不佳的问题,接下来的钻研需要进一步考虑性能和用户体验之间的权衡问题。

寻衅 4: 由系统问题引发的评价复杂性

建立直接针对运用程序的智能体可以满足更多用户需求,同时也能揭示更多评价寻衅。但鉴于 LLM 的运用程序建立会带来额外的复杂性,使得难以判断失败案例是来源于 LLM 运用的限制还是逻辑代码的不足。举例说明,如果说一个用户因为没法从界面中直接拖拽上传文件而造成没有完成用户想要的操作而判断智能体能力不行是不合理的。因此,对智能体设计和操作逻辑的系统进行改进,简化智能体流程以及用户应用逻辑,或者建立一个更加完善的设计和实现逻辑,是有前景且必要的。

未来展望

OpenAgents 可以怎么样帮助社区做下一步的钻研和开发?在他们的构想中至少有如下几点:

未来工作 1: 搭建更多智能体运用

OpenAgents 打通了一套完整的运用级说话智能体开发流程以及所需要的技术,并且开放了代码。这为其他创新运用与终端用户供应了可能。开发者们可以鉴于此开发任何自己想要的新运用,比如说多模态对话、语音对话、库级别代码助手等。

未来工作 2: 东西和组件集成

OpenAgents 致力于探索和解决建立实用级智能体运用的基本需求,为社区供应了一个强大的基础,使得社区可以轻松地通过集成其他组件进行水平扩展。同时,还可以扩展更多的基础模型,比如最近的大型多模态模型,以及适应新的 UI 设计等。

未来工作 3: 人机交互领域钻研

开发者和钻研者鉴于 OpenAgents 平台能轻松建立鉴于大说话模型的新智能体运用程序。OpenAgents 因此能帮助建立运用程序演示,供人机交互(HCI)钻研人员深入钻研更直观、更用户友好的界面设计。这将提升用户的参与度和满意度。

未来工作 4: 自适运用户界面生成

自动创建用户界面是一个有趣且具有寻衅性的领域。这些界面能根据特定标准,如用户的设备、偏好或上下文,进行自我调整或定制。钻研人员可以深入钻研在鉴于 OpenAgents 的自适应 UI 中,如何运用大说话模型,以及它们对用户体验的影响。

未来工作 5: 大说话模型在实际运用场景下的评价

为大说话模型建立公正且稳健的评价方法,对于公平评价其能力和性能至关重要。目前,通过应用预先收集的数据和受控环境,对智能体进行基准测试。虽然这些评价非常关键,但它们往往无法全面反映真正世界中的动态寻衅。鼓励社区对这些评价指标和平台进行扩展或完善,这将显著推动该领域的发展,并为大说话模型的实际性能和能力供应更准确的评价和洞察。

给TA打赏
共{{data.count}}人
人已打赏
工程

RLHF模型普遍存在「阿谀谄媚」,从Claude到GPT-4无一幸免

2023-10-25 11:49:00

工程

高精度低成本游戏3D人脸重修方案,腾讯AI Lab ICCV 2023论文解读

2023-10-26 18:43:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索