大模型竟然能玩手机了,还能用软件修图:「AppAgent」会成为2024年的新趋势吗?

这就是2024年的新趋势吗?近日,一项名为 AppAgent 的创新技能引起了广泛关注。简单来说,AppAgent 的智能署理本领可以用于操纵任何 App,它在 50 个庞杂手机使命上展示了强大的本领。AppAgent 幕后团队来自腾讯,相关技能论文也已经公布。论文地址::,这项技能通过引入一种基于大型语言模型(LLMs)的多模态智能署理(Agent)框架,赋予了智能体操纵智能手机利用的本领。与传统的智能助手如 Siri 不同,AppAgent 不依赖于系统后端访问,而是通过模拟人类的点击和滑动等操纵,直接与手机应

这就是2024年的新趋势吗?

近日,一项名为 AppAgent 的创新技能引起了广泛关注。

简单来说,AppAgent 的智能署理本领可以用于操纵任何 App,它在 50 个庞杂手机使命上展示了强大的本领。

大模型竟然能玩手机了,还能用软件修图:「AppAgent」会成为2024年的新趋势吗?

AppAgent 幕后团队来自腾讯,相关技能论文也已经公布。

大模型竟然能玩手机了,还能用软件修图:「AppAgent」会成为2024年的新趋势吗?

论文地址:https://arxiv.org/abs/2312.13771

主页地址:https://appagent-official.github.io/

据论文介绍,这项技能通过引入一种基于大型语言模型(LLMs)的多模态智能署理(Agent)框架,赋予了智能体操纵智能手机利用的本领。与传统的智能助手如 Siri 不同,AppAgent 不依赖于系统后端访问,而是通过模拟人类的点击和滑动等操纵,直接与手机利用的图形用户界面(GUI)互动。这种独特的方法不仅提高了安全性和隐私性,还确保了智能体能够适应利用界面的变化和更新。

大模型竟然能玩手机了,还能用软件修图:「AppAgent」会成为2024年的新趋势吗?

AppAgent 的核心在于其创新的进修方式。智能体可以通过自立索求或观测人类示范来进修如何导航和使用新利用。在自立索求过程中,智能体通过一系列预定义的行动与利用互动,观测每个行动带来的界面变化,从而构建知识库。这个过程还可以通过观测少数几个人类示范来加速,使智能体能够更快地理解庞杂功效。

为了验证其实用性,研究团队对 AppAgent 进行了广泛测试,覆盖了社交媒体、电子邮件、地图、购物以及庞杂的图像编辑工具等 10 种不同的利用中的 50 个使命。测试结果证明,AppAgent 在处理各种高级使命方面表现出色,显示出其适应性、用户友好性以及高效的进修和操纵本领。

推特大 V Andrew Torba 评价道:「一切都结束了,自 2017 年以来整个互联网都已经是 AI 的天下。互联网已死的理论是真实的。构建并推动尽可能多的基于 AI 的机器人来充斥网络空间,用红色药丸 (来自电影《黑客帝国》) 淹没它们是唯一的出路。」

大模型竟然能玩手机了,还能用软件修图:「AppAgent」会成为2024年的新趋势吗?

推特用户 Ate-a-Pi 评价道:「它来了!苹果的创新者困境。如果署理完成所有工作,那么优秀的智能手机用户界面有什么意义呢? 如果署理使得智能手机操纵系统变得多余,苹果将怎么做?他们有多长时间来解决这个问题?」

大模型竟然能玩手机了,还能用软件修图:「AppAgent」会成为2024年的新趋势吗?

推特用户 Morally Clear 评价道:「AI 署理将会成为 2024 年的 ChatGPT。」

大模型竟然能玩手机了,还能用软件修图:「AppAgent」会成为2024年的新趋势吗?

也有很多用户表示了对此项技能的担心。

推特用户 Benjamin Cox 评价道:「这太疯狂了。我们所知的利用程序可能仅仅会变成集成。此外,机器人用户参与度指标将变得完全不可靠。」

大模型竟然能玩手机了,还能用软件修图:「AppAgent」会成为2024年的新趋势吗?

推特用户 Karma 表示了这项技能可能被用来非法牟利:“建立一个拥有 500,000 台这样的服务器农场。点击你在 Instagram 或 Twitter 上看到的每个广告。短期投资你点击的广告公司并购买 Meta、X 和其他社交媒体利用的看涨期权?利润?谁在进行这项工作?”

大模型竟然能玩手机了,还能用软件修图:「AppAgent」会成为2024年的新趋势吗?

推特用户 Logan Thorneloe 评价道:“这太酷了!但是我知道它会被用来制造水军机器人,这让我有些担心。”

大模型竟然能玩手机了,还能用软件修图:「AppAgent」会成为2024年的新趋势吗?

方法概述

环境搭建

AppAgent 的实验环境是基于命令行界面(CLI),使得署理能与安卓系统上的智能手机利用进行交互。署理接收两种关键输入:一是展示利用界面的实时屏幕截图,二是详细描述交互元素的 XML 文件。为了提升署理识别和交互这些元素的本领,每个元素都被赋予了一个唯一标识符。这些标识符要么来源于 XML 文件中的资源 ID(如果提供),要么通过结合元素的类名、大小和内容来构建。这些以半透明数字形式覆盖在屏幕截图上的元素,帮助署理在不需指定精确位置的情况下准确互动,从而提升控制手机的精确度。

行动空间模拟了人类与智能手机的常见交互方式,包括点击和滑动。设计了四个基本功效:点击(Tap)、长按(Long_press)、滑动(Swipe)和文本输入(Text),以及两个系统级功效:返回(Back)和退出(Exit)。这些预定义行动旨在简化署理的交互流程,并减少对精确屏幕坐标的依赖,解决了语言模型在准确预测中可能遇到的挑战。

App 索求阶段

索求阶段是 AppAgent 框架的核心,署理通过自立交互或观测人类示范来进修利用程序的功效和特性。在自立交互模式下,署理被分配一个使命并开始与 UI 元素进行自立互动。它尝试不同的行动,并观测利用界面的变化以理解其工作原理。署理通过分析每个行动前后的屏幕截图,尝试弄清楚 UI 元素的功效和特定行动的效果,并将这些信息编译成文档,记录下不同元素所执行行动的效果。当一个 UI 元素被多次操纵时,署理会根据之前的文档和当前的观测来更新信息,以提高认知质量。

为了提高索求效率,如果当前 UI 页面似乎与利用的主要使命无关(如广告页面),署理将停止进一步索求并使用 Android 系统的返回功效返回到前一个 UI 页面。这种目标导向的索求方法,相比随机索求(如深度优先搜索和广度优先搜索),确保署理专注于对利用有效操纵至关重要的元素。此外,署理还利用语言模型的现有关于用户界面的知识来提高索求效率,直到完成分配的使命。

在通过观测人类示范进行索求的方式中,署理通过观测人类用户的操纵来进修利用的庞杂功效,这对于那些可能难以通过自立交互发现的功效尤其有效。在此方法中,署理记录人类使用的元素和行动,这种策略缩小了索求空间,并阻止署理与无关的利用页面进行交互,从而比自立交互更为高效和有条理。

大模型竟然能玩手机了,还能用软件修图:「AppAgent」会成为2024年的新趋势吗?

AppAgent 通过观测 app 的操纵响应来理解 UI 界面功效和操纵逻辑,并整理成文档

部署阶段

经过索求阶段的训练,AppAgent 已准备好执行基于其累积经验的庞杂使命。在部署阶段,署理遵循逐步方法,每一步都包括获取当前用户界面的屏幕截图和一个动态生成的文档,详细描述了用户界面元素的功效和当前用户界面页面上行动的效果。署理首先对当前用户界面进行观测,然后阐述其关于使命和当前观测的思考过程。随后,署理通过调用可用函数执行行动。每次行动后,署理总结交互历史和当前步骤中采取的行动。这些信息被整合进下一个提示中,为署理提供了一种记忆形式。这种细致的方法提高了署理行动的可靠性和可解释性,从而促进了更明智的决策。部署阶段持续进行,直到署理确定使命已经完成,此时它可以通过执行退出(Exit)行动结束过程。

大模型竟然能玩手机了,还能用软件修图:「AppAgent」会成为2024年的新趋势吗?

部署阶段,AppAgent 参考整理好的文档,不断的观测思考总结来完成庞杂的使命。

实验结论

AppAgent 通过一系列的量化和定性实验,证明了其在操控多样化智能手机利用方面的显著本领。该评估涉及了 10 种广泛使用的利用,覆盖了从社交媒体、地图导航到音乐播放和图片编辑等多个领域。通过特别针对 Adobe Lightroom 这一图像编辑利用的深入案例研究,AppAgent 的视觉处理本领得到了详尽的考察。

AppAgent 采用了先进的多模态大型语言模型 GPT-4 来处理交错的图像和文本输入,这种独特的本领使其能够无缝地解释和互动利用中的视觉及文本信息。实验结果表明,通过简化行动空间的设计,AppAgent 在准确性和效率上大幅度超越了原始的 GPT-4 模型。这主要是因为简化行动空间消除了对生成精确 xy 坐标的需求,这是传统语言模型的一个挑战点。在成功率、奖励和平均步骤数三个关键性能指标上,AppAgent 表现优异。即便在使命步骤上遇到失败,它也能根据其最终状态获得一定的奖励分数,这反映出其在理解和执行使命方面的适应性和韧性。特别是在多样化的利用中,AppAgent 通过有效地完成使命,展现了其出色的操纵本领。

通过自立索求和观测人类示范生成的文档,AppAgent 的性能显著优于仅依赖原始 GPT-4 模型的基线。这些文档的有效性与人工编写的文档相媲美,凸显了设计在增强署理跨多样化利用表现的有效性。定性结果进一步证明了 AppAgent 在准确感知、推理和响应使命要求方面的本领。

在 Adobe Lightroom 的案例研究中,AppAgent 对具有不同视觉问题的图片进行编辑,展现了其处理视觉使命的高级本领。用户研究的结果显示,相较于 GPT-4 基线,AppAgent 在图像编辑质量上有了明显提升。尤其是在使用观测示范生成的文档时,AppAgent 倾向于使用更多工具来提升图像质量,而 GPT-4 基线通常使用较少的工具。

总而言之,AppAgent 在多项使命中展示了出色的性能和适应性。其创新的多模态框架和有效的索求策略,不仅验证了 AppAgent 的实用性,还为智能署理在理解和操纵多样化智能手机利用方面的研究提供了宝贵的见解和基准。

大模型竟然能玩手机了,还能用软件修图:「AppAgent」会成为2024年的新趋势吗?

用 AppAgent 操纵 Lightroom 修图软件修图的例子

总结

腾讯的 AppAgent 技能标志着智能署理领域的一个重大进步,不仅提升了多模态大型语言模型在实际利用中的本领,而且开辟了未来智能手机利用操纵和交互的新境界。这项技能的核心优势在于其创新性和灵活性:通过模拟人类的互动方式,AppAgent 能够直接与利用的图形用户界面进行交互,从而摆脱了对传统后端接口的依赖。这不仅提高了操纵的安全性和隐私性,而且使得智能体能够更加灵活地适应利用界面的变化和更新。

AppAgent 的多模态进修框架,结合自立索求和观测人类示范的方式,使其能够快速适应和掌握新利用,无论是处理庞杂的图像编辑使命,还是导航庞杂的社交媒体平台。这种进修方法的高效性和适应性,证明了 AppAgent 在理解和执行多样化使命方面的高级本领,同时也突显了其在未来利用开发和用户体验改善中的巨大潜力。

随着技能的不断进步和优化,我们可以期待 AppAgent 在多个领域中的利用,如提高工作效率、改善用户体验、辅助残障人士等。AppAgent 的成功不仅为智能署理技能的发展树立了新的里程碑,而且为我们如何与智能手机和其他智能设备互动提供了全新的视角。它不仅有望改变个人用户的日常生活,还可能对商业、教育和互联网等行业产生深远影响。

给TA打赏
共{{data.count}}人
人已打赏
应用

2024年怎么过?这是Sam Altman希望你早些知道的事

2023-12-22 18:35:00

应用

击败散布模型,清华朱军团队鉴于薛定谔桥的新语音分解系统来了

2023-12-25 11:54:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索