嘿 Siri、你好小娜、小爱同学、小艺小艺、OK Google、小布小布……
想必这些唤醒词中至少有一个曾被你的嘴发出并成功呼唤出了一个能给你导航、讲笑话、添加日程、设置闹钟、拨打电话的智能团体助理(IPA)。可以说 IPA 已经成了现代智能手机不可或缺的标配,近期的一篇综述论文更是认为「团体 LLM 智能体会成为 AI 时代团体计算的重要软件范式」。
这篇团体 LLM 智能体综述论文来自国内多所高校和企业研究所,包括清华大学、小米、华为、欢太、vivo、云米、理想汽车、北京邮电大学、苏州大学。
文中不仅梳理了团体 LLM 智能体所需的才智、效用和安全问题,还收集并整理了领域专家的见解,另外还开创性地提出了团体 LLM 智能体的 5 级智能水平分级法。该团队也在 GitHub 上创建了一个文献库,发布了相关文献,同时也可供 IPA 社区共同维护,更新最新研发进展。
论文地址:https://arxiv.org/abs/2401.05459
文献库:https://github.com/MobileLLM/Personal_LLM_Agents_Survey
论文标题:Personal LLM Agents: Insights and Survey about the Capability, Efficiency and Security
机器之心整理了这篇综述论文的内容主干,以飨读者。
科幻描绘了很多亮眼的智能团体助理(IPA),即可以增强团体才智、完成复杂恣意甚至满足情感需求的软件智能体。这些智能体可以代表大多数人对人工智能(AI)的幻想。
随着智能手机、智能家居设置装备摆设、电动车等团体设置装备摆设的广泛普及和机器进修技能的进步,这种幻想正在逐渐变成现实。现在,很多移动设置装备摆设都内嵌了 IPA 软件,比如 Siri、Google Assistant、Alexa 等。这些智能体与用户密切相关,可以读取用户数据和传感器数据、控制各种团体设置装备摆设、利用与团体账户关联的个性化服务。
但是,当今的智能团体助理的灵活性和可扩展性都还有限。它们的智能水平还远远不够,在理解用户意图、推理和恣意实行等方面尤其明显。现如今大多数智能团体助理都只能实行受限范围内的恣意(比如内置应用的简单功用)。一旦用户的恣意请求超出了这些范围,智能体就无法准确理解和实行这些动作。
要改变这种情况,就必须显著提升智能体的才智,使其撑持范围更广、更灵活的恣意。但是,当前的 IPA 产品很难撑持大范围的恣意。当今大多数 IPA 都须要遵循特定的预定义规则,比如开发者定义的规则或用户演示的步骤。因此,除了定义恣意实行的触发器和步骤之外,开发者或用户还必须明确指定他们希望撑持哪些功用。本质上讲,这种办法会限制这些应用被用于更广泛的恣意,因为撑持更多恣意须要大量时间和劳动力成本。
某些办法在尝试通过监督进修或强化进修实现自动化进修,从而撑持更多恣意。但是,这些办法也须要大量人工演示和 / 或定义奖励函数的工作。
近些年出现的大型语言模型(LLM)为 IPA 的开发带来了全新的机会,其展现出了解决智能团体助理可扩展性问题的潜力。
相比于传统办法,ChatGPT 和 Claude 等大型语言模型已经展现出了指令遵从、常识推理和零样本泛化等特有才智。这些才智的实现鉴于在大规模语料库(超过 1.4 万亿词)上进行无监督进修以及后续通过人类反馈进行微调。利用这些才智,研究者已经成功采用大型语言模型来驱动自动智能体(即 LLM 智能体),其目标是通过自动进行规划和利用搜索引擎、代码解释器和第三方 API 等工具来解决复杂问题。
IPA 是一类特殊的智能体,有望通过 LLM 实现变革,毕竟 LLM 具备显著增强的可扩展性、才智和有用性。我们可以把 LLM 驱动的智能团体助理称为团体 LLM 智能体(Personal LLM Agents)。
相比于普通 LLM 智能体,团体 LLM 智能体会更深度地参与团体数据和移动设置装备摆设,并且它们也有更明确的设计目的:辅助人类而非取代人类。
具体而言,辅助用户的重要方式是减少他们日常生活中重复、乏味、低价值的劳动,让用户能专注于更有趣、更有价值的事情,从而提高工作和生活的效用和质量。团体 LLM 智能体可鉴于现有软件栈(例如移动应用、网站等)构建,同时还能通过无处不在的智能自动化才智带来令人耳目一新的用户体验。
因此,该团队预计团体 LLM 智能体会成为 AI 时代团体计算的重要软件范式,如图 1 所示。
尽管团体 LLM 智能体未来潜力巨大,但相关研究仍处于起步阶段,仍有许多错综复杂的问题和挑衅有待解决。
这篇综述论文率先讨论了实现团体 LLM 智能体方面的路线图、设计选择、重要挑衅和可能解决方案。
具体来说,这篇论文重要关注的是团体 LLM 智能体中与「团体」相关的部分,其中包括分析和利用用户团体数据、利用团体资源、在团体设置装备摆设上部署以及提供个性化服务。将 LLM 的通用语言才智简单直接地整合进 IPA 不在本文的讨论范围内。
首先,该团队对团体 LLM 智能体领域的专家做了一番调研。他们邀请了业内领先公司、研发用在团体设置装备摆设上的 IPA 和 / 或 LLM 的 25 位首席架构师、管理者和 / 或资深工程师 / 研究者他们让这些专家谈了谈将 LLM 整合进面向消费者的产品的机遇和挑衅。鉴于对这些专家意见的理解和分析,该团队总结了一套简单又普适的团体 LLM 智能体架构,其中最重要的部分是对团体数据(用户背景信息、环境状态、行为历史记录、团体特征)和团体资源(移动应用、传感器、智能家居设置装备摆设)的智能管理和利用。
另外,管理和利用这些团体事项的才智不同于团体 LLM 智能体的智能水平。该团队从自动驾驶的 1-5 级智能分级获得灵感,提出了团体 LLM 智能体的 5 个智能等级。
另外,该团队的这项研究还突出强调了实现这类团体 LLM 智能体的一些重要技能挑衅;他们将这些挑衅分成了三类:基本才智、效用、安全和隐衷。他们也详细解释了这三方面的挑衅并全面总结了可能的解决方案。具体来说,对于每个技能方面,他们会简要解释其与团体 LLM 智能体的相关性以及对团体 LLM 智能体的重要性,然后再具体讨论其中的重要研究问题。
这篇论文的重要内容和贡献可以总结如下:
总结了产业界和学术界中智能团体助理的当前现状,同时分析了它们的重要局限和 LLM 时代的未来趋势。
收集了 LLM 和团体智能体领域资深专家的见解、提出了一个普适的系统架构并定义了团体 LLM 智能体的智能水平。
总结了团体 LLM 智能体三个重要技能方面的文献,包括基本才智、效用、安全和隐衷。
智能团体助理简史
智能团体助理发展时间线
智能团体助理(IPA)的发展史已经很长。图 2 给出了 IPA 历史的大致时间线。其发展过程可以分为四个阶段,图中采用了不同的颜色标记。
第 1 阶段是从 1950 年代到 1980 年代末,这一时期的重点是开发语音识别技能。
第 2 阶段是从 1990 年代到 2000 年代末,此时语音识别已经开始被整合进一些软件实现一些高级功用。
第 3 阶段始于 2010 年代初。这时候,智能手机和团体计算机等移动设置装备摆设上开始出现总是开启的虚拟助手服务。2011 年,Siri 被集成到了 iPhone 4S 中,也被广泛认为是首个安装在现代智能手机上的智能团体助理。
第 4 阶段则是始于近期 ——LLM 开始赢得世界瞩目。现在已经出现了很多鉴于 LLM 的智能聊天机器人(如 ChatGPT),还有一些安装在团体设置装备摆设上的 LLM 驱动的 IPA 软件(如 Copilot)。
从技能角度看智能团体助理发展史
在观察智能团体助理时,我们可以选择很多不同视角,这里作者选择重点关注其最重要的一项才智,即恣意自动化的才智(遵从指令并完成恣意)。下面将介绍四种用于在 IPA 中实现智能恣意自动化的重要技能。
鉴于模板的编程:大多数 IPA 商业产品都是通过鉴于模板的编程来实现恣意自动化。这种办法是把要自动化的功用预定义成模板;通常来说,模板中会包含恣意描述、相关动作、要匹配的示例查询、须要填充的可用参数等。用户给出指令后,智能体首先会将指令映射到最相关的模板,然后再按照预定义的步骤完成恣意。其工作流程如图 3 所示。
监督进修办法:监督进修是一种实现恣意自动化的直接办法,其做法是鉴于恣意输入和当前状态预测后续的动作和状态。这方面的重要研究问题包括如何进修软件 GUI 的表征以及如何训练交互模型。
强化进修办法:不同于须要大量训练样本的鉴于监督进修的恣意自动化办法,鉴于强化进修(RL)的办法允许智能体通过与目标接口持续交互来获得恣意自动化的才智。在交互过程中,智能体会获得指示恣意完成进度的奖励反馈,并逐渐进修如何通过最大化奖励回报来自动化恣意。
对基础模型的早期利用:近年来,以大型语言模型(LLM)为代表的预训练大型基础模型发展迅速,为团体助理带来了新机会。
团体 LLM 智能体:定义和见解
我们正在见证鉴于 LLM 的智能团体助理的巨大潜力,也能看到学术界和产业界对这一技能的广泛兴趣。该团队通过这个研究项目率先系统性地讨论了与这一方向相关的机会、挑衅和技能。
他们首先对团体 LLM 智能体(Personal LLM Agents)进行了定义:一类深度整合了团体数据、团体设置装备摆设和团体服务的鉴于 LLM 的特殊智能体。
团体 LLM 智能体的重要目标是辅助终端用户,帮助他们减少重复性和繁琐的工作,让他们能更关注更有趣和更重要的事务。
按照这一定义,通用的自动化办法(prompt 设计、规划、自我反思等)类似于普通的鉴于 LLM 的智能体。这里重点关注的是与「团体」相关的部分,比如团体数据管理、对智能手机应用的利用情况以及部署到资源有限的团体设置装备摆设等等。
该团队预计:在 LLM 时代,团体 LLM 智能体将成为团体设置装备摆设的一个重要软件范式。但是,团体 LLM 智能体的软件栈和生态系统仍处于非常早期的阶段。与系统设计和实现相关的许多重要问题尚不明晰。
因此,为了了解这些问题,该团队做了一番调研,收集并整理了 25 位该领域专家的见解。这 25 位专家是来自 8 家研发 IPA 相关产品的领先公司的首席架构师、管理者或高级工程师 / 研究者。他们分享了对团体 LLM 智能体的看法,并解答了一些从应用场景到部署挑衅等方面的常见问题。鉴于这些讨论和收集到的答案,该团队将这些见解分成了三个方面,包括团体 LLM 智能体的关键组件、智能水平分级、有关常见问题的专家意见。
关键组件
鉴于对团体 LLM 智能体所需功用的讨论,该团队总结了撑持这些功用的重要组件,如图 4 所示。
团体 LLM 智能体的智能水平
团体 LLM 智能体应具备的功用须要不同的才智。受自动驾驶 6 个等级的启发,该团队将团体 LLM 智能体的智能水平分成了 1 级到 5 级共 5 个层级,如图 5 所示。
下表 1 列出了每一级的关键特征和代表性用例。
对常见问题的看法
接下来报告的是该团队收集整理的对一些常见问题的专家意见。这些问题包括部署团体 LLM 智能体的设计选择和潜在挑衅,如表 2 所示。
该团队分析了所得答案,并总结出以下关键见解。
意见 1(将 LLM 部署在哪里):将 LLM 在边缘 – 云(本地 – 远程)协同部署是首选,而现有的纯云(仅远程,例如 ChatGPT)并不是一个被广泛接受的解决方案。
意见 2(如何定制智能体):在定制化方面,人们最接受的办法是组合利用微调和上下文进修。
意见 3(利用哪些模态):团体 LLM 智能体最须要的是多模态 LLM,尤其是文本和视觉模态。
意见 4(哪些 LLM 才智对 IPA 产品最重要):专家认为最重要的 LLM 才智是语言理解,而最不重要的才智是处理长上下文的才智。
意见 5(如何与智能体交互):鉴于语音的交互是最受欢迎的方式。
意见 6(须要开发哪些智能体才智):对于团体 LLM 智能体的未来开发,参与专家认为最重要的功用是「更智能和更自动化的决策才智」。
意见 7(理想的 IPA 须要哪些功用):根据参与专家的回答,可以总结出理想智能体应具备的六大关键功用:高效的数据管理和搜索,工作和生活辅助,个性化服务和推荐,自动化恣意规划和完成,情感撑持和社交互动,作为用户的数字代表等。
意见 8(最紧迫的技能挑衅有哪些):根据参与专家的回答,可将最紧迫的技能挑衅分为以下类别:智能(包括多模态撑持、上下文理解和情境感知型行动、增强轻量级 LLM 在特定领域的才智);性能(有效的 LLM 压缩或紧凑架构、实用的本地 – 远程协作架构);安全和隐衷(数据安全和隐衷保护、推理准确度和无害性);个性化和存储;传统操作系统撑持。
基本才智
为了让团体 LLM 智能体撑持各种不同的功用,须要让其具备一些基本才智。除了普通 LLM 智能体都有的基本功用之外,这里重点关注的是团体助理应具备的三项基本才智:恣意实行、情境感知、影象。图 8 给出了这些基本才智之间的关系。
恣意实行
团体 LLM 智能体的恣意实行才智让其可以响应用户请求并实行指定的恣意。在该团队设想的场景中,智能体须要与智能手机、计算机和物联网设置装备摆设等各种团体设置装备摆设交互并控制它们来自动实行用户指令。
恣意实行功用的一项基本需求是智能体有才智准确理解用户下达的恣意。通常来说,恣意可能来自用户口头或书面下达的指令,智能体可以从中解读出用户的意图。随着语音识别技能的成熟,现在已经能非常方便地将语音信息转换成文本。
在将用户命令转换成文本后,团体 LLM 智能体应该能自动进行规划和采取行动。尽管规划对传统 DNN 来说很困难,但鉴于 LLM 的智能体在这方面却表现很好。之前已有一些综述论文讨论了 LLM 智能体的规划和推理才智。这篇论文关注的重点是操作团体数据以及与团体设置装备摆设交互。一个须要考虑的重点是团体 LLM 智能体交互的应用或系统可能缺乏全面的 API 撑持。因此,可以探索将用户界面(UI)作为团体智能体的重要工具,以在 API 受限的场景中实现有效交互。
情境感知
情境感知是指智能体感知用户或环境的状态的过程,如此一来便可提供更定制化的服务。
这篇论文对情境感知采用了更广义的定义,把一般的信息收集过程都视为感知。鉴于硬件的感知遵循传统的感知概念,其中涉及到通过各种传感器、可穿戴设置装备摆设、边缘设置装备摆设等数据源。另一方面,鉴于软件的感知则有各种各样的数据获取方式。举个例子,分析用户的打字习惯和常用短语就是一种鉴于软件的感知。
在团体 LLM 智能体中,情境感知才智有多种作用:实现对感知型恣意的撑持、补充情境信息、触发情境感知型服务、增强智能体的影象。
影象
影象是指记录、管理和利用历史数据的才智。该才智让智能体可以跟踪用户、进修过去的经验、提取有用知识以及利用这些知识来进一步提升服务质量。相关的研究工作重要是想解答两个问题:如何获取影象以及如何利用影象。
效用
由于许多团体设置装备摆设的硬件资源和能源供应有限,因此提升团体 LLM 智能体在部署阶段的效用是非常重要的。之前讨论的恣意实行、情境感知和影象等团体 LLM 智能体的基本才智都还有更基础的过程,重要包括 LLM 智能体的推理、定制化和影象检索,见图 9。这些过程都须要针对效用进行精心的优化。
LLM 的推理才智是智能体的各种才智的基础。因此,LLM 推理可能成为团体 LLM 智能体的性能瓶颈,须要仔细优化其效用。
定制化也是团体 LLM 智能体用于满足不同用户需求的重要过程。由于定制化的需求很大,因此该过程可能会给系统的计算和存储资源带来较大压力。
影象操作也是一个高成本过程。为了提供更好的服务,智能体可能须要访问更长的上下文或外部影象,比如环境感知数据、用户配置文件、交互历史、数据文件等。
图 10 总结了可用于提升 LLM 智能体效用的技能。
高效推理
为了提升 LLM 的推理效用,人们已经提出了很多模型或系统层面的办法,其中包括:
模型压缩:直接降低模型大小或减少计算量,从而降低 LLM 在计算、内存和能量方面的需求,进而提升推理效用。模型压缩技能可以进一步分类:量化、剪枝(稀疏化)、蒸馏和低秩分解。
推理加速:除了下面会提到的让模型更紧凑之外,还有一些用于加速 LLM 推理过程的技能。LLM 与传统非 Transformer 模型的一大关键差异是注意力机制。由于注意力的计算成本会随上下文长度而近二次增长,因此增强模型在长上下文推理方面的计算效用就格外重要了。为了更好地撑持长上下文推理,现有的研究工作重要集中于降低上下文长度和优化注意力核。
减少内存用量:LLM 推理不仅计算成本高,而且内存需求也大,这也是部署团体 LLM 智能体的一大挑衅。KV 缓存和模型权重是内存开销的两个重要原因。研究者已经针对这两方面提出了一些优化办法,包括通过量化或剪枝技能来压缩 KV 缓存。
能耗优化:能耗高的智能体不仅会增加部署成本和碳足迹,而且还会因为温度升高和潜在的热节流而损害体验质量(QoE)。由于计算和内存访问(重要是权重加载)是高能耗的两个重要原因,因此有很多旨在优化这两个方面的研究,其中既有软件方面的研究,也有硬件方面的研究。
高效定制化
团体 LLM 智能体可能须要利用同一个基础 LLM 为不同用户提供服务,在不同场景中实行不同的恣意,因此这须要针对每种情况进行高效的定制化。
定制化 LLM 行为的办法重要有两种:一是为 LLM 提供不同的上下文 prompt 供其上下文进修,二是利用特定领域的数据微调 LLM。因此,定制化效用的重要决定因素是上下文加载效用和 LLM 微调效用。
上下文加载效用:提升上下文加载效用的办法有很多。一种简单的办法是去掉冗余的 token,缩短上下文长度。另一种办法是降低上下文数据传输过程中的带宽消耗。
微调效用:这方面的技能大致可以分为这些类别:参数高效型微调技能、高效的优化器设计和训练数据组织管理。
高效操作影象
为了给出明智的决策,团体 LLM 智能体须要频繁地检索内部或外部影象。在 LLM 推理阶段,内部影象会表示成上下文 token 并以 KV 缓存的形式存储。内部影象的检索是由 Transformer 架构中的自注意力模块隐式处理的。这就须要 LLM 在实行推理时,在长上下文上实行更高效的计算,同时尽力最小化内存足迹。这些问题与之前讨论的 LLM 的推理效用类似。因此,这一小节重要关注的是操作外部影象(可被动态检索并添加到上下文中)的效用。
考虑到外部影象数据的多样性,比如用户配置文件、交互历史和本地原始文件(图像、视频等),常见做法是利用嵌入模型将影象数据表示成一种统一格式的高维向量。向量之间的距离表示对应数据之间的语义相似度。对于每一次查询,智能体都须要在外部影象存储中找到最相关的部分。这个过程以及对向量的维护工作可以通过向量软件库(如 Faiss 和 SCaNN)、向量数据库或某种定制的影象结构完成。不管这些系统的功用有何差异,他们的效用优化目标基本都集中于两个方面:搜索和检索。
安全和隐衷
团体 LLM 智能体不同于普通 LLM 智能体,会利用大量敏感的团体数据和安全性至关重要的团体工具。因此,保护团体 LLM 智能体用户的数据隐衷和服务安全就成了一个至关重要的问题。在团体 LLM 智能体语境中有三大安全原则:保密性、完整性和可靠性;如图 11 所示。
保密性
这一小节讨论的是在利用团体 LLM 智能体时保护用户隐衷的可能办法。前面已经提到,由于团体助理有权访问大量敏感的用户数据,因此确保用户隐衷至关重要。
不同于用户须要明确输入文本的传统 LLM 聊天机器人,团体 LLM 智能体有可能在用户不知情的情况下自发启动查询,其中可能包含有关用户的敏感信息。另外,智能体也可能将用户信息暴露给其它智能体或服务。因此,保护用户隐衷就变得更加重要了。
增强保密性的办法有很多,包括本地数据处理、同态加密、数据脱敏、访问权限控制等。
完整性
完整性是指让团体 LLM 智能体有才智确保正确输出用户期望的内容,即便在面临各种类型的攻击时也能做到。
由于团体 LLM 智能体必定会和不同类型的数据、应用及其它智能体交互,所以它有可能遇到恶意第三方的攻击,这些攻击的目的通常是通过非常规手段窃取用户数据和资产或破坏系统的正常功用。
因此,系统必须有才智抵御各种类型的攻击。通过加密、权限控制、硬件隔离等措施,可以防御模型参数修改、窃取、篡改本地数据等传统攻击方式。但是,除了防御传统的攻击办法外,还应该关注 LLM 智能体可能遇到的新型攻击:对抗攻击、后门攻击和 prompt 注入攻击。
可靠性
利用团体 LLM 智能体时,许多关键操作是由 LLM 决定的,包括一些敏感操作,例如修改和删除用户信息、采购服务、发送消息等。因此,确保智能体决策过程的可靠性至关重要。
该团队从三个方面探讨了 LLM 的可靠性,包括问题(即 LLM 的可靠性问题体现在哪里?)、改进(即如何让 LLM 的回答更可靠?)和检查(即如何处理 LLM 可能输出的不可靠结果?)。
更多技能细节请参阅原论文。