几个小时前,Claude 3.5 模型迎来了一波大更新。Anthropic 推出了升级版的 Claude 3.5 Sonnet 以及一款新模型 Claude 3.5 Haiku。
其中,升级版 Claude 3.5 Sonnet 的各项能力全面胜过之前版本,其中代码能力提升显著。Claude 3.5 Haiku 的性能则与之前最大模型 Claude 3 Opus 的性能相当,同时在成本和速度上与上一代 Haiku 相近。
最值得关注的是,Claude 3.5 Sonnet 版本号虽未提升,但却迎来了史诗级大更新:能像人一样使用计算机了!
最新版本的 Claude 3.5 Sonnet 能够根据用户指令移动光标、点击相应位置以及通过虚拟键盘输入信息,模仿人类与计算机的交互方式。
Anthropic 表示,Claude 3.5 Sonnet 是首个提供「计算机使用」能力公开 beta 测试的前沿 AI 模型,不过其也指出目前该工具还处于实验阶段 —— 有时候会很麻烦且容易出错。目前这个功能更多地是面向开发者,以便获得他们的使用反馈。
目前,「使用计算机」功能已经有了公开测试版,大家可以申请试用。申请表单:https://docs.google.com/forms/d/e/1FAIpQLSeD3IqITWsuepB19SEv889HsBvN9WOi6HRblPrJNyA9G7q02w/viewform
该功能发布后,网友纷纷点赞,都表示迫不及待想要尝试这个功能;当然也有网友对 Claude 3.5 Sonnet 依然使用原来的名称表达了深深地不解:「为什么这么大的更新却连模型版本号都不改一下?」
并且发布不过几个小时,就已经有开发者尝试了 Claude 3.5 Sonnet 的这项新能力。网友 Mckay Wrigley 表示通过 API 使用这项新功能,设置时间不超过 10 分钟,而这项能力却能为 AI 开启无限可能,堪称 game changer。
顺带一提,在 Anthropic 更新 Claude 3.5 的同时,热门 AI 编程工具 Cursor 也已经成功接入 Claude 系列模型。根据许多网友分享的截图,接入 Cursor 的 Claude 3.5 Sonnet 正是最新的 20241022 版本!
另外,对于官方博客中缺少的与 OpenAI ο1 模型的性能对比,也已经有研究者抢先完成了。根据研究者 Austin Starks 的实验,最新版 Claude 3.5 Sonnet 的性能表现优于 OpenAI ο1-mini。他自己也对这一结果深表震惊。
详细报告请访问:https://medium.com/@austin-starks/claudes-new-3-5-sonnet-outperformed-openai-s-o1-mini-i-m-shocked-58c9ee1993ea
让 AI 使用计算机有什么用?
为什么说这个功能很重要?我们知道,现代的大量工作都是通过计算机完成的。如果能让 AI 像人类一样直接与计算机软件交互,将解锁大量当前一代 AI 助手无法实现的应用。
过去几年,强 AI 已经实现了一个又一个里程碑,举个例子,现在的强 AI 已经有能力执行复杂的逻辑推理和理解图像内容。下一个前沿就是使用计算机,AI 模型不必通过定制工具进行交互,而是能够遵照指示使用几乎任何软件。
Anthropic 表示,他们之前在工具使用和多模态方面的工作为这些新的计算机使用技能奠定了基础。
操作计算机需要查看和解释图像的能力 —— 这里的图像就是指计算机屏幕。它还需要推理能力,以了解以怎样的方式在什么时间执行特定的操作。整合这些能力后,Claude 便可具备解读屏幕内容并使用软件工具执行任务的能力。
该公司举了个例子:如果用户是一名开发者,使用的软件有好几个,同时也已经给予了 Claude 适当的权限,那么 Claude 就可以查看用户能看到的屏幕,然后统计其所要移动的垂直和水平像素的数量,从而点击到正确位置。因此,准确统计像素数量的能力对 Claude 而言至关重要。没有这项技能,模型就难以发出鼠标指令 —— 类似于模型难以解决「banana 中有多少个 A?」 这样的问题。
Anthropic 表示,在训练 Claude 使用计算机方面,仅使用少量简单软件(比如一个计算器和一个文本编辑器)进行的训练就让 Claude 可以泛化这种能力。这一点让开发团队自己都深感惊讶。至于为何使用这样的简单软件,该团队表示:「出于安全原因,我们并不允许模型在训练时访问互联网。」
再结合 Claude 的其它能力,这种训练赋予了它非凡的能力,可以将用户的文本提示词转化为一系列逻辑步骤,然后在计算机上采取行动。开发团队观察到,如果遇阻,该模型甚至还能自我纠错并重试任务。
他们表示:「虽然我们在取得初步突破后很快就取得了后续进展,但达到这一目标的过程经历了大量反复试验。」该公司的一些研究者指出,让 Claude 具备使用计算机的能力接近他们刚开始从事该领域时所描绘的 AI 研究的「理想化」过程:不断迭代和反复回到绘图板,直到取得进展。
终于,研究获得了回报。目前,Claude 可以说是当之无愧的 SOTA 模型,其使用计算机的方式与人类相同 —— 即查看屏幕再采取行动。在 OSWorld 这项测试模型使用计算机的能力的评估基准上,Claude 当前的准确度为 14.9%,虽然远远不及人类水平(通常为 70-75%),但却远高于在此基准上排名第二的 AI 模型(7.8%)。当给予更多的步骤来完成任务时,Claude 得分为 22.0%。
OSWorld 基准上当前排名前十的模型
确保计算机使用安全
人工智能的每一次进步都会带来新的安全挑战。计算机的使用主要是降低人工智能系统应用现有认知技能的障碍,而不是从根本上提高这些技能,因此 Anthropic 对计算机使用的主要关注点是当前的危害,而不是未来的危害。
Anthropic 通过评估计算机的使用是否会增加其《负责任扩展政策》中列出的前沿威胁(frontier threats)的风险来证实这一点。更新后的 Claude 3.5 Sonnet,包括其新的计算机使用技能,仍处于 AI Safety Level 2,也就是说,它不需要比 Anthropic 目前采取的安全措施更高标准的安全措施。
未来的模型可能会带来灾难性的风险,计算机的使用可能会加剧这些风险,因此需要 AI Safety Level 3 或 4 的保障措施。Anthropic 认为现在引入计算机使用可能会更好,而模型仍然只需要 AI Safety Level 2 的保障。这意味着可以在风险过高之前开始解决任何安全问题。
因此,Anthropic 的信任与安全团队对计算机使用模型进行了广泛的分析,以识别潜在的漏洞。他们发现的一个问题是「提示词注入」—— 一种网络攻击,会输入恶意指令到人工智能模型,导致其要么覆盖先前的指令,要么执行偏离用户原始意图的意外操作。由于 Claude 可以解读连接到互联网的计算机的屏幕截图,因此它可能会暴露于包含提示词注入攻击的内容。
默认情况下,Anthropic 不会使用用户提交的数据(包括 Claude 收到的任何屏幕截图)来训练其生成式 AI 模型。
「计算机使用」的未来
计算机的使用是一种完全不同的人工智能开发方法。到目前为止,LLM 开发人员已经制作了适合模型的工具,生成了自定义环境,人工智能可以使用专门设计的工具来完成各种任务。
现在,Anthropic 的研究者可以让模型适应工具 —— Claude 可以融入我们日常使用的计算机环境中。他们的目标是让 Claude 能够利用现有的计算机软件,并像人类一样简单地使用它们。
研究者构建了一个 API,使 Claude 能够感知计算机界面并与之交互。该 API 使 Claude 能够将提示词翻译成计算机命令。开发人员可以使用它来自动执行重复性任务、进行测试和 QA 以及进行开放式研究。研究者并没有制作专门的工具来帮助 Claude 完成个别任务,而是教它通用的计算机技能,让它能够使用为人类设计的各种标准工具和软件程序。
不过,Anthropic 还有很多工作要做。尽管目前 Claude 处于技术的最前沿,但它使用计算机的速度仍然缓慢且经常出错。人们在计算机上常规进行的许多操作(如拖动、缩放等)Claude 还无法完成。
对于 Claude 来说,它观察到的屏幕「翻页」方式 —— 是通过拍摄屏幕截图并将它们拼接起来的方式,而不是观察更细粒度的视频流。这种方式意味着 Claude 可能会错过那些短暂的操作或通知。
甚至在录制计算机使用演示时,研究者也遇到了一些有趣的错误。其中一个错误是,Claude 不小心点击停止了长时间的屏幕录制,导致所有镜头都丢失。另一个错误是,Claude 突然中断了现场的编码演示,开始浏览黄石国家公园的照片。
研究者预期对计算机的使用将迅速改进,变得更快、更可靠,并更有助于用户完成他们想要完成的任务。对于那些软件开发经验较少的人来说,实施起来也将变得更加容易。并且在每一个阶段,研究人员都将与安全团队紧密合作,确保 Claude 的新功能更加安全。
Asana、Canva、Cognition、DoorDash、Replit 和 The Browser Company 已经开始探索「计算机使用」的各种可能性,执行那些需要几十个、有时甚至几百个步骤才能完成的任务。例如,Replit 正在利用 Claude 3.5 Sonnet 的计算机使用和 UI 导航能力,为其 Replit Agent 产品开发一个关键功能,该功能可以在构建应用程序时评估这些应用程序。
升级版的 Claude 3.5 Sonnet 现在对所有用户开放。从今天开始,开发者可以在 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 上使用「计算机使用」的测试版进行构建。新的 Claude 3.5 Haiku 将在本月晚些时候发布。
Claude 3.5 Sonnet:行业领先的软件工程技能
更新版的 Claude 3.5 Sonnet 在行业基准测试中显示出广泛的改进,特别是在智能体编码和工具使用任务上取得了显著的提升。在编码方面,其在 SWE-bench Verified 上的性能从 33.4% 提高到 49.0%,得分高于所有公开可用的模型 —— 包括像 OpenAI o1-preview 这样的推理模型和专为智能体编码设计的专门系统。它在 TAU-bench 上的表现也有所提升,这是一个智能体工具使用任务,在零售领域的得分从 62.6% 提高到了 69.2%,在更具挑战性的航空领域则从 36.0% 提高到了 46.0%。新的 Claude 3.5 Sonnet 以与其前代相同的价格和速度提供了这些改进。
早期客户反馈表明,升级版的 Claude 3.5 Sonnet 代表了 AI 驱动编码的重大飞跃。GitLab 针对 DevSecOps 任务对该模型进行了测试,发现它提供了更强的推理能力(在用例中高达 10%),并且没有增加延迟,这使其成为驱动多步骤软件开发流程的理想选择。Cognition 使用新的 Claude 3.5 Sonnet 进行自主 AI 评估,与前一版本相比,它在编码、规划和问题解决方面经历了显著的改进。The Browser Company 在用于自动化基于 Web 的工作流程时,注意到 Claude 3.5 Sonnet 的表现超过了他们之前测试过的每一个模型。
Claude 3.5 Haiku:SOTA 技术与性价比和速度的结合
Claude 3.5 Haiku 是 Anthropic 最快的模型的下一代。与 Claude 3 Haiku 的成本相同,速度相似,Claude 3.5 Haiku 在每项技能上都有改进,并且在许多智能基准测试上甚至超过了 Anthropic 上一代最大的模型 ——Claude 3 Opus。Claude 3.5 Haiku 在编码任务上尤其强大。例如,它在 SWE-bench Verified 上的得分为 40.6%,超过了使用公开可用的 SOTA 模型的许多智能体 —— 包括原始的 Claude 3.5 Sonnet 和 GPT-4o。
凭借低延迟、改进的指令遵循和更准确的工具使用,Claude 3.5 Haiku 非常适合面向用户的产品、专门的 sub-agent 任务以及从大量数据(如购买历史、定价或库存记录)中生成个性化体验。
Claude 3.5 Haiku 将于本月晚些时候通过 Anthropic 的第一方 API、Amazon Bedrock, 和谷歌云的 Vertex AI 提供 —— 最初作为仅限文本的模型,随后将支持图像输入。
参考链接:
https://www.anthropic.com/news/3-5-models-and-computer-use
https://www.anthropic.com/research/developing-computer-use