Claude自动玩崩铁清日常，NUS新论文完整测评AI电脑操控：GUI智能体的黎明

2024-11-25 09:35

Claude操控电脑，究竟可以做到什么程度？新加坡国立大学团队在20多个场景下做了全面测试，其中最引人瞩目的是：AI可以自动玩手游清日常任务了！研究中选用了米哈游《崩坏：星穹铁道》，可以跟它说”帮我完成今天的模拟宇宙”，然后，Claude就会立即依次打开游戏菜单、找到星穹里的”黄金花萼”、自动设置6次挑战次数：甚至还可以启动自动战斗、等待战斗结束后退出，这一套组合操作简直行云流水……而且注意哦，这不仅是传统游戏外挂那样的机械操作，Claude还能智能理解游戏规则和目标，根据界面上不同的任务进行调整。

Claude操控电脑，究竟可以做到什么程度？

新加坡国立大学团队在20多个场景下做了全面测试，其中最引人瞩目的是：AI可以自动玩手游清日常任务了！

研究中选用了米哈游《崩坏：星穹铁道》，可以跟它说”帮我完成今天的模拟宇宙”，然后，Claude就会立即依次打开游戏菜单、找到星穹里的”黄金花萼”、自动设置6次挑战次数：

甚至还可以启动自动战斗、等待战斗结束后退出，这一套组合操作简直行云流水……

而且注意哦，这不仅是传统游戏外挂那样的机械操作，Claude还能智能理解游戏规则和目标，根据界面上不同的任务进行调整。

这下好了，人类只能在一旁干瞪眼了。

除了更多测试场景外，论文还提出了一个开箱即用的自动GUI框架。

有网友看到视频后评论说：以后我去上学的时候，就可以让Claude帮我玩每日任务了。

还可以自动完成很多办公任务

Claude Computer Use的潜能还远远没有被人类发掘——

研究团队还测试了很多日常办公场景下它的性能：

1.网页搜索

它可以在Amazon和Apple官方网站上成功完成下单购物的任务，选择颜色配置、填写地址都轻松拿捏。

2.工作流程

模型还成功完成了在Apple Music添加歌曲、编辑Excel数据、在App Store安装应用等自动任务。

虽然界面设计和跳转逻辑更加复杂，它还是能智能地理解任务的最终目标，真是一个成熟的好AI（欣慰）！

3..办公生产力软件

此外，它还可以在Outook中转发邮件、调整Word布局、设置PowerPoint背景设置和插入三角形形状等等，这下真的可以大大增强生产力了（AI无用论 -1）。

4.还可以玩其他游戏

除了《崩坏：星穹铁道》，模型也可以自动玩《炉石传说》，包括创建和重命名牌组、使用英雄技能等等。

Claude Computer Use API + 自动化GUI框架

你可能会好奇，强如Claude Computer Use，是怎么做到自动完成任务的呢？

下面我们就一起来看看背后的框架设计——

具体来说，团队基于Claude Computer Use的API设计了一个自动化GUI框架，主要分为以下6个部分：

1.系统提示

Claude Computer Use的系统提示包括环境概述、可用函数和参数描述。用户可以通过编写块来调用这些函数，例如计算机交互、Bash Shel命令和文件编辑工具。

2.状态观察

Claude Computer Use通过实时截图观察环境，不依赖元数据或HTML。每个时间步长过后，模型都会保留历史截图，帮助生成下一步的动作。

3.推理范式

Claude Computer Use采用了一种推理-行动范式，通过观察环境来决定下一步的动作。这种范式可以让模型在高度动态的GUI环境中生成更可靠的动作。

4.工具使用

Claude Computer Use提供了三种工具：计算机工具、文本编辑器工具和Bash工具，它们可以帮助模型与计算机进行交互，执行各种任务。

5.GUI动作空间

GUI动作空间内置了所有原始的鼠标和键盘动作，如鼠标移动、点击、按键组合、拖放和截图等。模型会根据需要自行组合。

6.历史视觉上下文维护

模型在每个时间步长都会保留历史截图，以辅助动作生成过程。具体公式如下：

性能测试

为了更加广泛地测试Claude Computer Use和GUI框架联合后的性能效果，团队还设计了详尽的测试实验，包括

1.数据收集：实验设计包括在Windows和macOS上通过ComputerUse Out-of-the-Box平台进行评估。评估任务覆盖了广泛的应用领域，包括网页搜索、工作流程、办公生产力软件和视频游戏等。

2.样本选择：选择了20个任务，涵盖12个软件或网站，分为以下三个领域：网页搜索、工作流程、办公生产力和视频游戏。具体的任务可以查看下表：

3.参数配置：系统分辦率设置为Windows的（1366,768）和macOS的（1344,756）。过程中还加入了人类评审和评估用于监控和审查过程，确保任务的顺利完成。

虽然Claude Computer Use在之前的例子中表现都非常厉害，但当网页或软件的页面过于复杂时，模型也出现了一些失败案例：

1.精细网页操作失败：在Fox Sports订阅任务中失败，错误原因主要在于模型没有正确导航到”Account”选项卡。

2.办公软件失败：在Word中更新简历模板、和在PPT中插入编号符号两个任务中失败，错误原因在于模型未能准确选择和定位文本字段。

不过整体来说，Claude Computer Use已经很棒了，而且这功能也刚刚发布没多久，未来可期！

团队还公开了所有测试用例的具体信息，感兴趣的小伙伴可以点GitHub项目链接查看更多消息～

Claude老师，以后我的PPT和Steam就拜托你了（bushi）

强化学习再登Nature封面，自动驾驶安全验证新范式大幅减少测试里程

引入密集强化学习，用 AI 验证 AI。自动驾驶汽车 (AV) 技术的快速发展，使得我们正处于交通革命的风口浪尖，其规模是自一个世纪前汽车问世以来从未见过的。自动驾驶技术具有显着提高交通安全性、机动性和可持续性的潜力，因此引起了工业界、政府机构、专业组织和学术机构的共同关注。过去 20 年里，自动驾驶汽车的发展取得了长足的进步，尤其是随着深度学习的出现更是如此。到 2015 年，开始有公司宣布他们将在 2020 之前量产 AV。不过到目前为止，并且没有 level 4 级别的 AV 可以在市场上买到。导致这一现象的

3/23/2023 5:38:00 PM

机器之心

基于生成式 AI 技术，汤姆猫正在研发一款语音交互陪伴机器人

感谢汤姆猫公司日前公布了新一期的“投资者关系活动记录表”，披露了公司在 AI 领域的布局。据介绍，汤姆猫公司国内研发团队与西湖心辰合作的汤姆猫 AI 讲故事等产品，已初步完成主要功能的测试，公司海外团队研发的首款 AI 手游《Talking BenAI》已在斯洛文尼亚、塞浦路斯、南非等地区开启首轮海外测试。此外，公司 AI 硬件团队正研发一款基于生成式人工智能技术的 AI 语音交互陪伴机器人，预计将为公司业务带来全新增长空间。汤姆猫透露，此前一款全新适配 MR / VR 硬件的产品原型已经在苹果 Vision Pr

3/11/2024 9:04:56 AM

浩渺

AI 程序员 Devin 卧底工作群修 bug！和 CTO 聊技术，网友：顶级码农水平

首个 AI 程序员 Devin，现身明星创业公司内部群。为解决一个技术问题，Devin 借用了其创造者的账号，与客户公司的 CTO 交流，并根据回复调整了代码方案。对话之专业，围观者看了直呼这个世界太疯狂。事情发生在办公软件 Slack，截图中的 akshat 是 AI 基础设施创业公司 Modal Labs 的 CTO Akshat Bubna。Modal Labs 也是 Devin 开发商 Cognition 的首批客户之一。此时 Devin 正披着他的创造者之一、IOI 金牌得主 Steven Hao 的马甲

3/17/2024 5:15:57 PM

远洋

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片 OPPO 小布助手网页版上线，接入满血版 DeepSeek 本地部署DeepSeek+DiFy平台构建智能体应用 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果人形机器人深度学习 AI视频模态 xAI 驾驶字节跳动文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型

顶部