AI 让手机任务自动“跑”起来！我国高校最新研究，简化移动设备操作

作者：清源

2024-10-31 02:31

AI 解放碳基生物双手，甚至能让你的手机自己玩自己！你没听错 —— 这其实就是移动任务自动化。在 AI 飞速发展下，这逐渐成为一个新兴的热门研究领域。

AI 解放碳基生物双手，甚至能让你的手机自己玩自己！

你没听错 —— 这其实就是移动任务自动化。

在 AI 飞速发展下，这逐渐成为一个新兴的热门研究领域。

移动任务自动化利用 AI 精准捕捉并解析人类意图，进而在移动设备（手机、平板电脑、车机终端）上高效执行多样化任务，为那些因认知局限、身体条件限制或身处特殊情境下的用户提供前所未有的便捷与支持。

帮助视障人群用户完成导航、阅读或网上购物
辅助老年人使用手机，跨越数字鸿沟
帮助车主在驾驶过程中完成发送短信或调节车内环境
替用户完成日常生活中普遍存在的重复性任务
……

妈妈再也不嫌重复设置多个日历事项会心烦了。

最近，来自西安交通大学智能网络与网络安全教育部重点实验室 (MOE KLINNS Lab）的蔡忠闽教授、宋云鹏副教授团队（团队主要研究方向为智能人机交互、混合增强智能、电力系统智能化等），基于团队最新 AI 研究成果，创新性提出了基于视觉的移动设备任务自动化方案 VisionTasker。

这项研究不仅为普通用户提供了更智能的移动设备使用体验，也展现出了对特殊需求群体的关怀与赋能。

AI 让手机任务自动“跑”起来！我国高校最新研究，简化移动设备操作

基于视觉的移动设备任务自动化方案

团队提出了 VisionTasker，一个结合基于视觉的 UI 理解和 LLM 任务规划的两阶段框架，用于逐步实现移动任务自动化。

该方案有效消除了表示 UI 对视图层次结构的依赖，提高了对不同应用界面的适应性。

值得注意的是，利用 VisionTasker 无需大量数据训练大模型。

AI 让手机任务自动“跑”起来！我国高校最新研究，简化移动设备操作

VisionTasker 从用户以自然语言提出任务需求开始工作，Agent 开始理解并执行指令。

具体实现如下：

1、用户界面理解

VisionTasker 通过视觉的方法做 UI 理解来解析和解释用户界面。

首先 Agent 识别并分析用户界面上的元素及布局，如按钮、文本框、文字标签等。

然后，将这些识别到的视觉信息转换成自然语言描述，用于解释界面内容。

2、任务规划与执行

接下来，Agent 利用大语言模型导航，根据用户的指令和界面描述信息做任务规划。

将用户任务拆解为可执行的步骤，如点击或滑动操作，以自动推进任务的完成。

3、持续迭代以上过程

每一步完成后，Agent 都会根据最新界面和历史动作更新其对话和任务规划，确保每一步的决策都是基于当前上下文的。

这是个迭代的过程，将持续进行直到判断任务完成或达到预设的限制。

用户不仅能从交互中解放双手，还可以通过可见提示监控任务进度，并随时中断任务，保持对整个流程的控制。

AI 让手机任务自动“跑”起来！我国高校最新研究，简化移动设备操作

首先是识别界面中的小部件和文本，检测按钮、文本框等元素及其位置。

对于没有文本标签的按钮，利用 CLIP 模型基于视觉设计来推断其可能功能。

随后，系统根据 UI 布局的视觉信息进行区块划分，将界面分割成多个具有不同功能的区块，并对每个区块生成自然语言描述。

这个过程还包括文本与小部件的匹配，确保正确理解每个元素的功能。

最终，所有这些信息被转化为自然语言描述，为大语言模型提供清晰、语义丰富的界面信息，使其能够有效地进行任务规划和自动化操作。

实验评估

实验评估部分，该项目提供了对三种 UI 理解的比较分析，分别是：

GPT-4V
VH（视图层级）
VisionTasker 方法

AI 让手机任务自动“跑”起来！我国高校最新研究，简化移动设备操作

△ 三种 UI 理解方法的比较分析

对比显示，VisionTasker 在多个维度上比其他方法有显著优势。

此外，在处理跨语言应用时也表现出了良好的泛化能力。

AI 让手机任务自动“跑”起来！我国高校最新研究，简化移动设备操作

△ 实验 1 中使用到的常见 UI 布局

表明 VisionTasker 的以视觉为基础的 UI 理解方法在理解和解释 UI 方面具有明显优势，尤其是在面对多样化和复杂的用户界面时尤为明显。

AI 让手机任务自动“跑”起来！我国高校最新研究，简化移动设备操作

△ 跨四个数据集的单步预测准确性

文章还进行了单步预测实验，根据当前的任务状态和用户界面，预测接下来应该执行的动作或操作。

结果显示，VisionTasker 在所有数据集上的平均准确率达到了 67%，比基线方法提高了 15% 以上。

真实世界任务：VisionTasker vs 人类

实验过程中，研究人员设计了 147 个真实的多步骤任务来测试 VisionTasker 的表现，这些任务涵盖了国内常用的 42 个应用程序。

与此同时，团队还设置了人类对比测试，由 12 名人类评估者手动执行这些任务，然后 VisionTasker 的结果进行比较。

AI 让手机任务自动“跑”起来！我国高校最新研究，简化移动设备操作

结果显示，VisionTasker 在大多数任务中能达到与人类相当的完成率，并且在某些不熟悉的任务中表现优于人类。

AI 让手机任务自动“跑”起来！我国高校最新研究，简化移动设备操作

△ 实际任务自动化实验的结果“Ours-qwen”是指使用开源 Qwen 实现 VisionTasker 框架，”Ours”表示使用文心一言作为 LLM

团队还评估了 VisionTasker 在不同条件下的表现，包括使用不同的大语言模型（LLM）和编程演示（PBD）机制。

VisionTasker 在大多数直观任务中达到了与人类相当的完成率，在熟悉任务中略低于人类但在不熟悉任务中优于人类。

AI 让手机任务自动“跑”起来！我国高校最新研究，简化移动设备操作

△VisionTasker 逐步完成任务的展示

结论

作为一个基于视觉和大模型的移动任务自动化框架，VisionTasker 克服了现阶段移动任务自动化对视图层级结构的依赖。

通过一系列对比实验，证明其在用户界面表现上超越了传统的编程演示和视图层级结构方法。

它在 4 个不同的数据集上都展示了高效的 UI 表示能力，表现出更广泛的应用性；并在 Android 手机上的 147 个真实世界任务中，特别是在复杂任务的处理上，表现了出超越人类的任务完成能力。

此外，通过集成编程演示（PBD）机制，VisionTasker 在任务自动化方面有显著的性能提升。

目前，该工作已以正式论文的形式发表于 2024 年 10 月 13-16 日在美国匹兹堡举行的人机交互顶级会议 UIST（The ACM Symposium on User Interface Software and Technology）。

UIST 是人机交互领域专注于人机界面软件和技术创新的 CCF A 类顶级学术会议。

AI 让手机任务自动“跑”起来！我国高校最新研究，简化移动设备操作

原文链接：https://dl.acm.org/ doi / 10.1145/3654777.3676386
项目链接：https://github.com/ AkimotoAyako / VisionTasker

本文来自微信公众号：量子位（ID：QbitAI），作者：关注前沿科技

苹果介绍 Ferret-UI 多模态大语言模型：更充分理解手机屏幕内容

感谢苹果公司近日发布研究论文，展示了 Ferret-UI AI 系统，可以理解应用程序屏幕上的内容。以 ChatGPT 为代表的 AI 大语言模型（LLMs），其训练材料通常是文本内容。为了能够让 AI 模型能够理解图像、视频和音频等非文本内容，多模态大语言模型（MLLMs）因此孕育而生。只是现阶段 MLLMs 还无法有效理解移动应用程序，这主要有以下几个原因：1. 手机屏幕的宽高比，和大多数训练图像使用的屏幕宽高比不同。2. MLLMs 需要识别出图标和按钮，但它们相对来说都比较小。因此苹果构想了名为 Ferre

4/10/2024 7:50:52 AM

故渊

当人工智能也会画UI，设计师的核心价值在哪里？

编者按：设计规范越来越完善，软件越来越简单，连PM 都可以动手搭一个UI 界面，那么此时设计师的核心价值在哪里？如何让自己摆脱“只会画画图标和线框图”的印象？这篇文章总结了4个进阶方法。鸿影：近年来各家平台的设计规范日渐完善，公司也在大力推行中台化战略，DPL、组件化、模块化等成为了我们工作中的重心之一，设计标准化的趋势愈演愈烈，在促进设计效率提升、解放生产力的同时，也让我开始产生一种深深的焦虑：当组件和业务模块沉淀到一定程度，产品经理和前端直接拿来搭建页面也能有模有样，设计师的核心价值和不可替代性又在哪里？当平

1/10/2017 10:10:58 PM

程远

AI绘画未来如何改进？来看斯坦福教授的预测！

编者按：这篇文章是来自斯坦福的年轻教授 Maneesh Agrawala，他本人既是斯坦福计算机专业的教授，也是斯坦福大学布朗媒体创新研究所的所长。他在去年 HAI 2022 秋季会议上发布了演讲「AI回路：演进中的人类」，而这篇文章正是演讲内容修订后的版本。对于 AIGC 当下存在的深层问题，AI 的逻辑以及未来可能的改进方式，给出了详尽的解读和预测。以下是正文：最近我决定更新一下我的个人网站的图片资料：作为一名计算机专业的教授，我觉得现在制作一张高质量照片，最简单的方法，就是使用 DALL-E2 来生成。所以

4/7/2023 6:33:39 AM

Maneesh Agrawala

资讯热榜

这样在本地搭建DeepSeek可以直接封神：本地部署+避坑指南（升级版）基于 Spring AI + MCP + DeepSeek-R1-7B 构建企业级智能 Agent 工具调用系统 Manus开源平替！Kortix-AI正式发布开源通用AI智能体平台Suna Trae v1.3.0重磅更新，新增MCP与.rules支持引领AI开发新体验纳米AI发布MCP万能工具箱，简化AI工具集成与调用 Figma 推 AI 革命：开发智能应用制作器与网站创建工具即梦3.0海外版发布，电影级视觉与精准英文排版引领AI创作新高度 Persona Engine开源发布，AI虚拟助手与Live2D融合打造交互新体验

标签云

人工智能 OpenAI AIGC AI ChatGPT AI绘画 DeepSeek 数据机器人模型谷歌大模型 Midjourney 智能用户开源学习 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora 3D Anthropic AI for Science AI设计机器学习 GPU 开发者 AI视频场景华为预测百度人形机器人伟达苹果 Transformer 深度学习模态 xAI 字节跳动 Claude 大语言模型搜索驾驶文本具身智能神器推荐 Copilot LLaMA 算力视频生成安全干货合集视觉应用大型语言模型科技亚马逊特斯拉 AGI 训练 2024

顶部

AI 让手机任务自动“跑”起来！我国高校最新研究，简化移动设备操作

基于视觉的移动设备任务自动化方案

实验评估

结论

相关资讯

苹果介绍 Ferret-UI 多模态大语言模型：更充分理解手机屏幕内容

当人工智能也会画UI，设计师的核心价值在哪里？

AI绘画未来如何改进？来看斯坦福教授的预测！