一句指令自动玩手机,网上冲浪神器Mobile-Agent来了

一直以来,让 AI 成为手机操纵助手都是一项颇具挑战性的恣意。在该场景下,AI 需要根据用户的要求自动操纵手机,逐步完毕恣意。随着多模态大语言模型(Multimodal Large Language Model,MLLM)的快速发展,以 MLLM 为基础的多模态 agent 逐渐应用于各种实际应用场景中,这使得借助多模态 agent 兑现手机操纵助手成为了可能。本文将介绍一篇最新的利用多模态 agent 兑现 AI 操纵手机的研究《Mobile-Agent: Autonomous Multi-Modal Mobil

一直以来,让 AI 成为手机操纵助手都是一项颇具挑战性的恣意。在该场景下,AI 需要根据用户的要求自动操纵手机,逐步完毕恣意。

随着多模态大语言模型(Multimodal Large Language Model,MLLM)的快速发展,以 MLLM 为基础的多模态 agent 逐渐应用于各种实际应用场景中,这使得借助多模态 agent 兑现手机操纵助手成为了可能。

本文将介绍一篇最新的利用多模态 agent 兑现 AI 操纵手机的研究《Mobile-Agent: Autonomous Multi-Modal Mobile Device Agent with Visual Perception》。

一句指令自动玩手机,网上冲浪神器Mobile-Agent来了

论文地址:https://arxiv.org/abs/2401.16158v1

项目地址:https://github.com/X-PLUG/MobileAgent

本领展示

首先为大家介绍 Mobile-Agent 可以自动做哪些有趣的恣意。

下面是一个在 YouTube 里找相关视频并发表评论的例子,用户的要求是在 YouTube 里搜索视频,找到一个和某个明星相关的视频,然后发表评论。在整个过程中,Mobile-Agent 没有出现任何谬误、不必要或无效的操纵,完美地完毕了恣意。

一句指令自动玩手机,网上冲浪神器Mobile-Agent来了

接下来是一个操纵多 App 的例子,用户的要求是先去查询今天的比赛结果,然后根据结果写一个新闻。这个恣意的挑战性在于,前后要应用两个 App 完毕两个子恣意,并且需要将第一个子恣意的结果作为第二个子恣意的输入。Mobile-Agent 首先完毕了查询比赛结果,随后退出浏览器并打开笔记,最后将比赛结果精准地写出,并以新闻的方式呈现。

一句指令自动玩手机,网上冲浪神器Mobile-Agent来了

最后展示一个短视频平台评论的例子,用户的需求是在短视频平台中刷视频,如果刷到了宠物猫相关的视频,就点一个喜欢。在该例子中,Mobile-Agent 出现了两次谬误的操纵(红色字体指示),然而 Mobile-Agent 及时感知到了谬误并且采取了补救措施,最终也完毕了恣意。

一句指令自动玩手机,网上冲浪神器Mobile-Agent来了

从上述的例子中可以看出,Mobile-Agent 有以下三个本领:

(1)操纵定位。对于需要点击特定图标和文本的操纵,Mobile-Agent 可以或许准确点击到对应的位置。

(2)自我计划。根据用户指令和以后屏幕截图,Mobile-Agent 可以或许自动计划每一步的恣意,直到恣意完毕。

(3)自我深思。如果出现了谬误操纵或者无效操纵,Mobile-Agent 可以或许及时发现问题并进行补救。

方法

这里详细介绍一下 Mobile-Agent 的设计思路,展示上述三个本领是如何兑现的。

操纵空间

为了便于将文本描述的操纵转化为屏幕上的操纵,Mobile-Agent 生成的操纵必须在一个定义好的操纵空间内。这个空间共有 8 个操纵,分别是:

打开 App(App 名字)

点击文本(文本内容)

点击图标(图标描述)

打字(文本内容)

上翻、下翻

返回上一页

退出 App

停止

其中,点击文本和点击图标是两个需要操纵定位的操纵,因此 Mobile-Agent 在应用这两个操纵时,必须输出括号内的参数,以兑现定位。

操纵定位

在大多数情况下,MLLM 已经具备基本的操纵手机的本领,在提供手机截图和用户指令后,这些模型往往可以或许生成正确的操纵。然而,MLLM 的操纵定位本领十分有限,这体现在:虽然 MLLM 可以产生正确的操纵,但当要求 MLLM 输出这些操纵将要在屏幕上发生的位置时,MLLM 往往无法提供准确的坐标。现有工作表明,即使是最先进的 GPT-4V,也无法提供准确的操纵坐标。

虽然仅通过 MLLM 无法兑现自动化操纵,但是我们可以利用 MLLM 产生的正确操纵,通过额外的操纵定位工具兑现操纵定位。在 Mobile-Agent 中,一共应用了两种视觉感知工具,分别是文字识别模块和图标识别模块,如下图所示:

一句指令自动玩手机,网上冲浪神器Mobile-Agent来了

对于文本定位,Mobile-Agent 借助 OCR 工具来定位出指定文本。如果指定文本在屏幕中多次出现,则会将这些区域裁剪出来并绘制检测框,OCR 工具返回的多个区域将会以多图输入的方式重新做一次选择。对于图标定位,Mobile-Agent 首先借助检测模型,应用检测词 “图标” 将屏幕中所有图标区域裁剪出来,随后根据 Mobile-Agent 提供的图标描述,利用 CLIP 计算这些裁剪区域于描述的相似度,并选择最高的区域作为点击的坐标。

自我计划

Mobile-Agent 以迭代方式完毕每一步操纵。在迭代开始之前,用户需要输入一个指令。我们根据指令生成整个流程的系统提示。在每次迭代开始时,Mobile-Agent 会获取手机屏幕的截图,通过观察系统提示、操纵历史和以后屏幕截图,输出下一步操纵。如果 Mobile-Agent 输出的是结束,则停止迭代;否则,继续新的迭代。Mobile-Agent 利用操纵历史记录了解以后恣意的进度,并根据系统提示对以后屏幕截图进行操纵,从而兑现迭代式自我计划流程。

自我深思

在迭代过程中,Mobile-Agent 可能会遇到谬误,导致无法完毕指令。为了提高指令的成功率,Mobile-Agent 引入了一种自我深思方法。这种方法将在两种情况下生效。第一种情况是生成了谬误或无效的操纵,导致进程卡住。当 Mobile-Agent 注意到某个操纵后截图没有变化,或者截图显示了谬误的页面时,它会尝试其他操纵或修改以后操纵的参数。第二种情况是忽略某些复杂指令的要求。当通过自我计划完毕所有操纵后,Mobile-Agent 会分析操纵、历史记录、以后截图和用户指令,以确定指令是否已完毕。如果没有,它需要继续通过自我计划生成操纵。

实验

Mobile-Eval

为了全面评估 Mobile-Agent 的本领,作者引入了 Mobile-Eval,这是一个基于以后主流应用程序的 benchmark。Mobile-Eval 共包含 10 个移动设备上常用的应用程序。为了评估多应用程序应用本领,作者还引入了需要同时应用两个应用程序的指令。作者为每个应用程序设计了三种指令。第一条指令相对简单,只要求完毕基本的应用程序操纵。第二条指令在第一条指令的基础上增加了一些额外要求,使其更具挑战性。第三条指令涉及抽象的用户指令,即用户不明确指定应用哪个应用程序或执行什么操纵,让 agent 自己做出判断。下面的表中介绍了 Mobile-Eval 中应用的应用程序和指令。

一句指令自动玩手机,网上冲浪神器Mobile-Agent来了

实验结果

下表中展示了 Mobile-Agent 的评测结果。其中 SU 代表指令是否完毕,PS 代表正确操纵占所有操纵的比例,RE 代表 Mobile-Agent 和人类完毕指令时分别用了多少步,CR 是 Mobile-Agent 可以或许完毕的操纵占人类操纵的百分比。在 3 种指令上,分别达到了 91%、82% 和 82% 的成功率,在完毕度上,3 种指令都达到了 90% 以上,并且 Mobile-Agent 可以达到 90% 人类的效果。值得注意的是,虽然 PS 平均只有 85% 左右,但是在总共的 33 个恣意上,Mobile-Agent 可以或许完毕 28 个,这也说明了自我深思的重要性,即使会出现谬误操纵,也可以或许及时发现并纠正,最终完毕恣意。

一句指令自动玩手机,网上冲浪神器Mobile-Agent来了

其他本领

下面两个例子展示了中文场景下的表现。虽然 GPT-4V 在中文识别上还有待加强,但是在文字不多的简单场景下 Mobile-Agent 也可以完毕恣意。

一句指令自动玩手机,网上冲浪神器Mobile-Agent来了

一句指令自动玩手机,网上冲浪神器Mobile-Agent来了

给TA打赏
共{{data.count}}人
人已打赏
应用

像人类一样在批评中进修成长,1317条考语让LLaMA2胜率飙升30倍

2024-2-4 15:21:00

应用

击败OpenAI,权重、数据、代码全开源,能完美复现的嵌入模型Nomic Embed来了

2024-2-4 15:31:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索