通用计算机控制
信息革命产生了数字世界,数字世界为大模型的诞生提供了数据,也最容易实现通用人工智能(AGI)。
向数字世界 AGI 迈进,北京智源人工智能钻研院、新加坡南洋理工大学、北京大学携手提出通用计算机控制 General Computer Control (GCC),即智能体需要像人一样看屏幕,通过键盘、鼠标完毕计算机上的所有任意。在过去很长一段时间里,人工智能钻研以游玩为场景,而 GCC 将为通用人工智能钻研提供场景,也将进一步促进大模型和 AI Agents 的落地与产业化。
为此,钻研团队提出通用计算机控制智能体框架 Cradle,使智能体不依赖任何内部 API 直接控制键盘、鼠标和任何软件交互,无论开源还是闭源,甚至能玩《荒野大镖客 2》这样的商业 3A 游玩大作!
论文标题:Towards General Computer Control: A Multimodal Agent for Red Dead Redemption II as a Case Study
论文链接:https://arxiv.org/abs/2403.03186
项目主页:https://baai-agents.github.io/Cradle/
代码链接:https://github.com/BAAI-Agents/Cradle
随着大模型的发展,越来越多的智能体(AI Agents)钻研关注计算机控制,包括浏览网页、操纵智能手机、玩游玩等。然而,已有钻研依赖内部 API 获取输入,并输入预先定义好的作为。要构建能完毕计算机上一切任意的通用智能体,必须使用最通用和最标准的输入输入与计算机进行交互。因此,通用计算机控制使用统一的输入和输入,从而让智能体的通用性变为可能。
但通用性带来了操纵上的难度:(1)使用计算机屏幕作为输入对智能体的视频理解能力提出了更高的要求,例如由于没有内部 API,需要通过视觉信息判断作为是否实行成功;(2)使用键盘和鼠标操纵作为输入使得智能体需要更高的时空操纵精度,比如键盘按键和鼠标点击通常额外涉及时间维度。如何解决这些难题是构建通用计算机控制智能体 (GCC Agents) 的挑战!
Cradle:操控一切软件
「计算机指任何以用户为中心的计算设备,包括 PC、智能手机和平板电脑等。尽管 Cradle 着重于键盘和鼠标操纵,但可以很容易扩展到控制手柄和触摸屏等」
通用计算机控制智能体框架 Cradle 主要由 6 个模块组成:信息收集、自我深思、任意推断、妙技管理、行动计划以及影象模块。Cradle 高度的通用性来源于其对和计算机交互过程中的原始输入输入的合理封装和抽象。以从屏幕中显示的视频作为输入,提取其中的文本和视觉信息进行计划,并且输入底层操纵系统中控制键盘和鼠标的信号去和计算机交互,使得其可以不依赖于任何假设与所有软件进行交互。
「Cradle 主要由信息收集、自我深思、任意推断、妙技管理、行动计划以及影象模块等 6 个模块组成,其强大的计划推理来自于 “深思过去,归纳现在,规划未来”」
同时 Cradle 强大的计划推理模块让其得以自发和软件进行交互并且完毕任意,这个过程可以被简单地归纳为:深思过去,归纳现在,规划未来。
深思过去:使用实行过往作为过程的视频作为输入,分别提取出其中关键的文本和视觉信息,通过深思来判断上一步作为是否实行成功、任意是否完毕以及如何改进。
归纳现在:深思完之后,归纳当前情况,并且以此为依据来决定是否更换任意目标或是修改任意内容。
规划未来:最后根据当前任意和现状生成或者更新妙技,并且从已学会的妙技中检索与当前任意相关的妙技作为备选,然后从中选取合适的妙技实例化为作为去实行。
在计划推理的同时,Cradle 会周期性地归纳和维护储存在情境影象中的历史信息以及储存在长期影象中的妙技。这一过程的大脑是多模态大模型,如 GPT-4V,但是 Cradle 为其添加了归纳、深思以及影象等功能,形成了完整的面向通用计算机控制的智能体框架,有效解决了通用性所带来的难题。
Cradle:带你从头开始试探《荒野大镖客 2》
为了证明框架的通用性和强大的计划能力,钻研团队选择将 Cradle 部署到最为困难以及鲜有人试探的的商业 3A 游玩大作《荒野大镖客 2》。他们认为作为操纵最为困难的软件,假如 Cradle 能够在 3A 游玩上自由试探甚至完毕主线剧情,那么说明该框架有巨大潜力泛化到其他游玩和软件上。
「与 Minecraft 这样的开源游玩不同,大多数商业游玩特别是 3A 游玩并不提供内部 API 接口,使得类似 Voyager 这样的依赖内部 API 获取输入并输入预定义作为的框架无法迁移到其他游玩中」
以 GPT-4V 为基础,Cradle 能直接根据游玩内的提示和教程生成对应的可实行代码作为妙技,一步步丰富自己的妙技库, 并在之后的游玩中重复使用这些妙技。
在实行了错误作为之后,Cradle 能够有效地通过深思来发现并且纠正错误。
Cradle 不仅能从头开始跟随游玩指引生成相应妙技,完毕长达 40 分钟时的主线剧情,还能在开放世界自由试探,骑马,打猎,战斗,与 NPC 对话,使用道具,操纵地图,甚至商店购物,均不在话下。这是首个能长时间游玩商业 3A 游玩的智能体。
结束语
开源的 Cradle 代码可以很容易扩展到其他软件和游玩。钻研团队表示,为了能够实现真正的通用计算机控制,后续 Cradle 还将移植到更多软件和游玩上,也鼓励相关钻研团队 / 工业界开展进一步钻研与试探。目标是让智能体可以与无论是开源还是闭源的所有软件进行交互并持续自我提升,实现通用性,最终成为通用人工智能诞生的摇篮。
"GCC is a cradle for AGI."
—The Cradle team
One more thing:Cradle 技术解读直播
3 月 14 日 14:30-15:30,论文一作新加坡南洋理工大学博士生谭伟豪进行线上解读报告。扫描下图二维码报名。