当我们谈到 AI 助手的未来,很难不想起《钢铁侠》系列中那个令人炫目的 AI 助手贾维斯。贾维斯不仅是托尼・斯塔克的得力助手,更是他与先进科技的沟通者。如今,大模型的出现颠覆了人类使用工具的办法,我们或许离这样的科幻场景又近了一步。想象一下,如果一个多模态 Agent,能够间接像人类一样通过键盘和鼠标间接操控我们身边的电脑,这将是多么令人振奋的突破。
AI助手贾维斯
近期,吉林大学人工智能学院发布了一项利用视觉大语言模型间接控制电脑 GUI 的最新研究《ScreenAgent: A Vision Language Model-driven Computer Control Agent》,它将这一想象映射进了现实。该工作提出了 ScreenAgent 模型,首次探索在无需辅助定位标签的情况下,利用 VLM Agent 间接控制电脑鼠标和键盘,实现大模型间接操作电脑的目标。此外,ScreenAgent 通过「计划-实行-深思」的自动化过程首次实现对 GUI 界面的连续控制。该工作是对人机交互办法的一次探索和革新,同时开源了具备精准定位信息的数据集、控制器、训练代码等。
论文地址:https://arxiv.org/abs/2402.07945
项目地址:https://github.com/niuzaisheng/ScreenAgent
ScreenAgent 可以帮助用户轻松实现在线娱乐活动,购物,旅行,阅读等也不在话下。它还可以是最了解你的贴心管家,帮助用户管理个人电脑。甚至无需动手,就帮助用户实现快速办公,成为你最得力的办公助手!话不多说,间接看效果。
带你网上冲浪,实现娱乐自由
ScreenAgent 根据用户文本描述上网查找并播放指定的视频:
系统操作管家,赋予用户高阶技能
让 ScreenAgent 打开 Windows 的事件查看器:
掌握办公技能,轻松玩转 office
此外,ScreenAgent 可以使用 office 办公软件。例如根据用户文本描述,删除所打开的第二页 PPT:
谋定而后动,知止而有得
对于要完成某一工作,在工作实行前必须要做好筹备活动。ScreenAgent 可以在工作开始前,根据观测到的图象和用户需求,进行筹备,例如:
将视频播放速度调至 1.5 倍速:
在 58 同城网站上搜索二手迈腾车的价格:
在命令行里安装 xeyes:
视觉定位才智迁移,鼠标选定无压力
ScreenAgent 还保留了对于自然事物的视觉定位才智,可以通过鼠标拖拽的办法绘制出物体的选框:
方法
事实上,要教会 Agent 与用户图形界面间接交互并不是一件简单的事情,需要 Agent 同时具备工作筹备、图象理解、视觉定位、工具使用等多种综合才智。现有的模型或交互方案都存在一定妥协,例如 LLaVA-1.5 等模型缺乏在大尺寸图象上的精确视觉定位才智;GPT-4V 有非常强的工作筹备、图象理解和 OCR 的才智,但是拒绝给出精确的坐标。现有的方案需要在图象上人工标注额外的数字标签,并让模型选择需要点选的 UI 元素,例如 Mobile-Agent、UFO 等项目;此外,CogAgent、Fuyu-8B 等模型可以支持高分辨率图象输入并有精确视觉定位才智,但是 CogAgent 缺乏完整函数调用才智,Fuyu-8B 则语言才智欠缺。
为了解决上述问题,文章提出为视觉语言模型智能体(VLM Agent)构建一个与真实计算机屏幕交互的全新环境。在这个环境中,智能体可以观察屏幕截图,并通过输入鼠标和键盘操作来操纵图形用户界面。为了引导 VLM Agent 与计算机屏幕进行持续的交互,文章构建了一个包含「计划-实行-深思」的运行过程。在计划阶段,Agent 被要求将用户工作拆解为子工作。在实行阶段,Agent 将观察屏幕截图,给出实行子工作的具体鼠标和键盘举动。控制器将实行这些举动,并将实行结果反馈给 Agent。在深思阶段,Agent 观察实行结果,并判定当前的状态,选择继续实行、重试或调整计划。这一过程持续进行,直到工作完成。值得一提的是,ScreenAgent 无需使用任何文字识别或图标识别模块,使用端到端的办法训练模型所有的才智。
ScreenAgent 环境参考了 VNC 远程桌面连接协议来设计 Agent 的举动空间,包含最基础的鼠标和键盘操作,鼠标的点击操作都需要 Agent 给出精确的屏幕坐标位置。相比起调用特定的 API 来完成工作,这种办法更加通用,可以适用于各种 Windows、Linux Desktop 等桌面操作系统和应用程序。
ScreenAgent 数据集
为了训练 ScreenAgent 模型,文章人工标注了具备精准视觉定位信息的 ScreenAgent 数据集。这一数据集涵盖了丰富的日常计算机工作,包括了 Windows 和 Linux Desktop 环境下的文件操作、网页浏览、游戏娱乐等场景。
数据集中每一个样本都是完成一个工作的完整过程,包含了举动描述、屏幕截图和具体实行的举动。例如,在亚马逊网站上「将最便宜的巧克力加入到购物车」的案例,需要先在搜索框中搜索关键词,再使用过滤器对价格进行排序,最后将最便宜的商品加入购物车。整个数据集包含 273 条完整的工作记录。
实验结果
在实验分析部分作者将 ScreenAgent 与多个现有的 VLM 模型从各个角度进行比较,主要包括两个层面,指令跟随才智和细粒度举动预测的正确率。指令跟随才智主要考验模型能否正确输入 JSON 格式的举动序列和举动类型的正确率。而举动属性预测的正确率则比较每一种举动的属性值是否预测正确,例如鼠标点击的位置、键盘按键等。
指令跟随
在指令跟随方面,Agent 的首要工作就是能够根据提示词输入正确的工具函数调用,即输入正确的 JSON 格式,在这方面 ScreenAgent 与 GPT-4V 都能够很好的遵循指令,而原版的 CogAgent 由于在视觉微调训练时缺乏 API 调用形式的数据的支撑,反而丧失了输入 JSON 的才智。
举动属性预测的正确率
从举动属性的正确率来看,ScreenAgent 也达到了与 GPT-4V 相当的水平。值得注意的是,ScreenAgent 在鼠标点击的精确度上远远超过了现有模型。这表明视觉微调有效增强了模型的精确定位才智。此外,我们还观察到 ScreenAgent 在工作筹备方面与 GPT-4V 相比存在明显差距,这凸显了 GPT-4V 的常识知识和工作筹备才智。
结论
吉林大学人工智能学院团队提出的 ScreenAgent 能够采用与人类一样的控制办法控制电脑,不依赖于其他的 API 或 OCR 模型,可以广泛应用于各种软件和操作系统。ScreenAgent 在「计划-实行-深思」的过程控制下,可以自主地完成用户给定的工作。采用这样的办法,用户可以看到工作完成的每一步,更好地理解 Agent 的行为想法。
文章开源了控制软件、模型训练代码、以及数据集。在此基础上可以探索更多迈向通用人工智能的前沿工作,例如在环境反馈下的强化学习、Agent 对开放世界的主动探索、构建世界模型、Agent 技能库等等。
此外,AI Agent 驱动的个人助理具有巨大的社会价值,例如帮助肢体受限的人群使用电脑,减少人类重复的数字劳动以及普及电脑教育等。在未来,或许不是每个人都能成为像钢铁侠那样的超级英雄,但我们都可能拥有一位专属的贾维斯,一位可以陪伴、辅助和指导我们的智能伙伴,为我们的生活和工作带来更多便利与可能。