Claude 自动玩崩铁清日常,NUS 新论文完整测评 AI 电脑操控

新加坡国立大学团队在 20 多个场景下做了全面测试,其中最引人瞩目的是:AI 可以自动玩手游清日常任务了!

Claude 操控电脑,究竟可以做到什么程度?

新加坡国立大学团队在 20 多个场景下做了全面测试,其中最引人瞩目的是:AI 可以自动玩手游清日常任务了!

研究中选用了米哈游《崩坏:星穹铁道》,可以跟它说”帮我完成今天的模拟宇宙”,然后,Claude 就会立即依次打开游戏菜单、找到星穹里的”黄金花萼”、自动设置 6 次挑战次数:

Claude 自动玩崩铁清日常,NUS 新论文完整测评 AI 电脑操控

甚至还可以启动自动战斗、等待战斗结束后退出,这一套组合操作简直行云流水……

Claude 自动玩崩铁清日常,NUS 新论文完整测评 AI 电脑操控

而且注意哦,这不仅是传统游戏外挂那样的机械操作,Claude 还能智能理解游戏规则和目标,根据界面上不同的任务进行调整。

这下好了,人类只能在一旁干瞪眼了。

Claude 自动玩崩铁清日常,NUS 新论文完整测评 AI 电脑操控

除了更多测试场景外,论文还提出了一个开箱即用的自动 GUI 框架

Claude 自动玩崩铁清日常,NUS 新论文完整测评 AI 电脑操控

有网友看到视频后评论说:以后我去上学的时候,就可以让 Claude 帮我玩每日任务了。

Claude 自动玩崩铁清日常,NUS 新论文完整测评 AI 电脑操控

还可以自动完成很多办公任务

Claude Computer Use 的潜能还远远没有被人类发掘 ——

研究团队还测试了很多日常办公场景下它的性能:

1.网页搜索

它可以在 Amazon 和 Apple 官方网站上成功完成下单购物的任务,选择颜色配置、填写地址都轻松拿捏。

Claude 自动玩崩铁清日常,NUS 新论文完整测评 AI 电脑操控

Claude 自动玩崩铁清日常,NUS 新论文完整测评 AI 电脑操控

2.工作流程

模型还成功完成了在 Apple Music 添加歌曲、编辑 Excel 数据、在 App Store 安装应用等自动任务。

虽然界面设计和跳转逻辑更加复杂,它还是能智能地理解任务的最终目标,真是一个成熟的好 AI(欣慰)!

Claude 自动玩崩铁清日常,NUS 新论文完整测评 AI 电脑操控

Claude 自动玩崩铁清日常,NUS 新论文完整测评 AI 电脑操控

Claude 自动玩崩铁清日常,NUS 新论文完整测评 AI 电脑操控

3.. 办公生产力软件

此外,它还可以在 Outook 中转发邮件、调整 Word 布局、设置 PowerPoint 背景设置和插入三角形形状等等,这下真的可以大大增强生产力了(AI 无用论 -1)。

Claude 自动玩崩铁清日常,NUS 新论文完整测评 AI 电脑操控

Claude 自动玩崩铁清日常,NUS 新论文完整测评 AI 电脑操控

Claude 自动玩崩铁清日常,NUS 新论文完整测评 AI 电脑操控

Claude 自动玩崩铁清日常,NUS 新论文完整测评 AI 电脑操控

4.还可以玩其他游戏

除了《崩坏:星穹铁道》,模型也可以自动玩《炉石传说》,包括创建和重命名牌组、使用英雄技能等等。

Claude 自动玩崩铁清日常,NUS 新论文完整测评 AI 电脑操控

Claude Computer Use API + 自动化 GUI 框架

你可能会好奇,强如 Claude Computer Use,是怎么做到自动完成任务的呢?

下面我们就一起来看看背后的框架设计 ——

Claude 自动玩崩铁清日常,NUS 新论文完整测评 AI 电脑操控

具体来说,团队基于 Claude Computer Use 的 API 设计了一个自动化 GUI 框架,主要分为以下 6 个部分:

1.系统提示

Claude Computer Use 的系统提示包括环境概述、可用函数和参数描述。用户可以通过编写块来调用这些函数,例如计算机交互、Bash Shel 命令和文件编辑工具。

Claude 自动玩崩铁清日常,NUS 新论文完整测评 AI 电脑操控

Claude 自动玩崩铁清日常,NUS 新论文完整测评 AI 电脑操控

2.状态观察

Claude Computer Use 通过实时截图观察环境,不依赖元数据或 HTML。每个时间步长过后,模型都会保留历史截图,帮助生成下一步的动作。

3.推理范式

Claude Computer Use 采用了一种推理-行动范式,通过观察环境来决定下一步的动作。这种范式可以让模型在高度动态的 GUI 环境中生成更可靠的动作。

4.工具使用

Claude Computer Use 提供了三种工具:计算机工具、文本编辑器工具和 Bash 工具,它们可以帮助模型与计算机进行交互,执行各种任务。

5.GUI 动作空间

GUI 动作空间内置了所有原始的鼠标和键盘动作,如鼠标移动、点击、按键组合、拖放和截图等。模型会根据需要自行组合。

6.历史视觉上下文维护

模型在每个时间步长都会保留历史截图,以辅助动作生成过程。具体公式如下:

Claude 自动玩崩铁清日常,NUS 新论文完整测评 AI 电脑操控

性能测试

为了更加广泛地测试 Claude Computer Use 和 GUI 框架联合后的性能效果,团队还设计了详尽的测试实验,包括

1.数据收集:实验设计包括在 Windows 和 macOS 上通过 ComputerUse Out-of-the-Box 平台进行评估。评估任务覆盖了广泛的应用领域,包括网页搜索、工作流程、办公生产力软件和视频游戏等。

2.样本选择:选择了 20 个任务,涵盖 12 个软件或网站,分为以下三个领域:网页搜索、工作流程、办公生产力和视频游戏。具体的任务可以查看下表:

Claude 自动玩崩铁清日常,NUS 新论文完整测评 AI 电脑操控

3.参数配置:系统分辦率设置为 Windows 的(1366,768)和 macOS 的(1344,756)。过程中还加入了人类评审和评估用于监控和审查过程,确保任务的顺利完成。

虽然 Claude Computer Use 在之前的例子中表现都非常厉害,但当网页或软件的页面过于复杂时,模型也出现了一些失败案例:

1.精细网页操作失败:在 Fox Sports 订阅任务中失败,错误原因主要在于模型没有正确导航到”Account”选项卡。

Claude 自动玩崩铁清日常,NUS 新论文完整测评 AI 电脑操控

2.办公软件失败:在 Word 中更新简历模板、和在 PPT 中插入编号符号两个任务中失败,错误原因在于模型未能准确选择和定位文本字段。

Claude 自动玩崩铁清日常,NUS 新论文完整测评 AI 电脑操控

Claude 自动玩崩铁清日常,NUS 新论文完整测评 AI 电脑操控

不过整体来说,Claude Computer Use 已经很棒了,而且这功能也刚刚发布没多久,未来可期!

团队还公开了所有测试用例的具体信息,感兴趣的小伙伴可以点 GitHub 项目链接查看更多消息~

Claude 老师,以后我的 PPT 和 Steam 就拜托你了(bushi)

Claude 自动玩崩铁清日常,NUS 新论文完整测评 AI 电脑操控

参考资料:

  • https://arxiv.org/pdf/2411.10323

  • https://github.com/showlab/computer_use_ootb

本文来自微信公众号:量子位(ID:QbitAI),作者:奇月,原标题《Claude 自动玩崩铁清日常,NUS 新论文完整测评 AI 电脑操控:GUI 智能体的黎明》

相关资讯

用不了ChatGPT?快试试免费又强大的Anthropic Claude

大家好,这里是和你们一起探索 AI 的花生~ 前段时间 OpenAI 不稳定导致有些小伙伴没有办法继续使用 ChatGPT 了,不过没有关系,最近又新出现了一个 AI 聊天机器人 Claude,功能与 ChatGPT 不相上下,还比 ChatGPT 更容易获取和使用,目前可以免费使用,一起来看看吧~ 往期回顾:一、Claude 简介 Anthropic 官方: Claude 是最近新开放的一款 AI 聊天机器人,是世界上最大的语言模型之一,比之前的一些模型如 GPT-3 要强大得多,因此 Claude 被认为是

一夜之间,大模型像人一样操控电脑了!Claude 3.5重磅升级,抢先OpenAI

几个小时前,Claude 3.5 模型迎来了一波大更新。Anthropic 推出了升级版的 Claude 3.5 Sonnet 以及一款新模型 Claude 3.5 Haiku。其中,升级版 Claude 3.5 Sonnet 的各项能力全面胜过之前版本,其中代码能力提升显著。

ChatGPT又添劲敌?OpenAI核心员工创业,新模型获一片叫好

ChatGPT 给 AI 领域带来的变革,可能正在催生一个新产业。上周末,有消息称 AI 初创公司 Anthropic 即将获得大约 3 亿美元的新融资。Anthropic 由 OpenAI 前研究副总裁 Dario Amodei、GPT-3 论文一作 Tom Brown 等人在 2021 年共同创立,目前已筹集了超过 7 亿美元的资金,最新一轮的估值达到了 50 亿美元。他们开发了一种对标老东家知名产品 ChatGPT 的人工智能系统,其似乎在关键方面对原版系统做了优化改进。Anthropic 提出的系统名叫 C