AI智能体的炒作与实际：GPT-4都撑不起，实际使命成功率不到15%

AI 智能体的宣传很好，实际不太妙。随着大语言模型的不断进化与自我革新，本能、准确度、稳定性都有了大幅的提升，这已经被各个基准问题集验证过了。但是，对于现有版本的 LLM 来说，它们的综合能力似乎并不能完全支撑得起 AI 智能体。多模态、多使命、多领域俨然已成为 AI 智能体在公共传媒空间内的必须要求，但是在具体的功效实践中所展现的真正效果却差强人意，这似乎也再次提醒各个 AI 智能体首创公司以及庞大科技巨头认清实际：脚踏实地一点，先别把摊子铺得太大，从 AI 增强功效开始做起。近日，一篇就 AI 智能体在宣传和真

AI 智能体的宣传很好，实际不太妙。

随着大语言模型的不断进化与自我革新，本能、准确度、稳定性都有了大幅的提升，这已经被各个基准问题集验证过了。

但是，对于现有版本的 LLM 来说，它们的综合能力似乎并不能完全支撑得起 AI 智能体。

AI智能体的炒作与实际：GPT-4都撑不起，实际使命成功率不到15%

多模态、多使命、多领域俨然已成为 AI 智能体在公共传媒空间内的必须要求，但是在具体的功效实践中所展现的真正效果却差强人意，这似乎也再次提醒各个 AI 智能体首创公司以及庞大科技巨头认清实际：脚踏实地一点，先别把摊子铺得太大，从 AI 增强功效开始做起。

近日，一篇就 AI 智能体在宣传和真正表示上的差距而撰写的博客中，强调了一个观点：「AI 智能体在宣传上是个巨人，而实际却很不妙。」

不可否认的是，自主 AI 智能体能够执行复杂使命的前景已经引起极大的兴奋。通过与外部工具和功效的交互，LLMs 可以在没有人为干预的情况下完成多步骤的工作流程。

但实际证明，这比预期的要更具挑战性。

WebArena 排行榜（一个真正可复现的网络环境，用于评估实用智能体的本能）对 LLM 智能体在实际使命中的表示进行了基准尝试，结果显示即使是表示最好的模型，成功率也只有 35.8%。

AI智能体的炒作与实际：GPT-4都撑不起，实际使命成功率不到15%

WebArena 排行榜对 LLM 智能体在实际使命中的表示进行的基准尝试结果：SteP 模型在成功率指标上表示最为良好，达到了 35.8%，而知名的 GPT-4 的成功率仅达到了 14.9%。

什么是 AI 智能体？

「AI 智能体」这个术语并没有真正被定义，对智能体究竟是什么也存在很多的争议。

AI 智能体可以定义为「一个被赋予行动能力的 LLM（通常在 RAG 环境中进行函数调用），以便在环境中对如何执行使命做出高层次的决策。」

当前，构建 AI 智能体主要有以下两种架构步骤：

简单智能体：一个庞大模型处置整个使命，并基于其全面的上下文理解做出所有决策和行动。这种步骤利用了庞大模型的涌现能力，避免了将使命分解所带来的信息丢失。

多智能体系统：将使命分解为子使命，每个子使命由一个更小、更专业的智能体处置。与尝试使用一个难以控制和尝试的庞大通用智能体相比，人们可以使用许多更小的智能体来为特定子使命选择正确的策略。由于上下文窗口长度的限制或不同技能组合的需要等实际约束，这种步骤有时是必要的。

理论上，具有无限上下文长度和完美注意力的简单智能体是理想的。由于上下文较短，在特定问题上，多智能体系统总是比简单系统效果差。

实践中的挑战

在见证了许多 AI 智能体的尝试之后，作家认为它们目前仍为时过早、本钱过高、速度过慢且不够可靠。许多 AI 智能体首创公司似乎在等待一个模型突破，以开启智能体产品化的竞赛。

AI 智能体在实际运用中的表示并不够成熟，这体现在输出不精确、本能差强人意、本钱较高、赔偿风险、无法获得用户相信等问题：

可靠性：众所周知，LLMs 容易产生幻觉和不一致性。将多个 AI 步骤连接起来会加剧这些问题，尤其是对于需要精确输出的使命。

本能和本钱：GPT-4、Gemini-1.5 和 Claude Opus 在使用工具 / 函数调用方面表示不错，但它们仍然较慢且本钱高，特别是如果需要进行循环和自动重试时。

法律问题：公司可能需要对其智能体的错误负责。最近的一个例子是，加拿大航空被命令向一位被航空公司聊天机器人误导的客户赔偿。

用户相信：AI 智能体的「黑箱」性质以及类似示例使得用户难以理解和相信其输出。在涉及支付或个人信息的敏感使命中（如支付账单、购物等），赢得用户相信将会很困难。

实际世界中的尝试

目前，以下几家首创公司正在涉足 AI 智能体领域，但大多数仍处于实验阶段或仅限邀请使用：

adept.ai – 融资 3.5 亿美元，但访问权限仍然非常有限。

MultiOn – 融资情况未知，他们的 API 优先步骤看起来很有前景。

HypeWrite – 融资 280 万美元，起初是一个 AI 写作助手，后来扩展到智能体领域。

minion.ai – 最初引起了一些关注，但现在已经沉寂，仅有等候名单。

它们中似乎只有 MultiOn 在追求「给出指令并观察其执行」的步骤，这与 AI 智能体的承诺更为一致。

其他所有公司都在走记录和重放的 RPA（record-and-replay）路线，这在现阶段可能是为保证可靠性所必需的。

同时，一些大公司也在将 AI 功效带到桌面和浏览器，并且看起来将会在系统层面上获得本地的 AI 集成。

OpenAI 宣布了他们的 Mac 桌面应用程序，可以与操作系统屏幕互动。 AI智能体的炒作与实际：GPT-4都撑不起，实际使命成功率不到15%

在 Google I/O 大会上，Google 示范了 Gemini 自动处置购物退货。

AI智能体的炒作与实际：GPT-4都撑不起，实际使命成功率不到15%

微软宣布了 Copilot Studio，它将允许开发人员构建 AI 智能体机器人。

AI智能体的炒作与实际：GPT-4都撑不起，实际使命成功率不到15%

这些技术示范令人印象深刻，人们可以拭目以待这些智能体功效在公开发布并在真正场景中尝试时的表示，而不是仅限于精心挑选的示范案例。

AI 智能体将走向哪条路？

作家强调：「AI 智能体被过度炒作了，大多数还没有准备好用于关键使命。」

然而，随着基础模型和架构迅速进步，他表示人们仍可以期待看到更多成功的实际应用。

AI 智能体最有前途的前进道路可能是这样的：

近期的重点应放在利用 AI 增强现有工具，而不是提供广泛的全自主独立服务。

人机协同的步骤，让人类参与监督和处置边缘案例。

根据当前的能力和局限，设定不脱离实际的期望。

通过结合严格约束的 LLMs、良好的评估数据、人机协同监督和传统工程步骤，就可以在自动化等复杂使命方面实现可靠且良好的结果。

对于 AI 智能体是否会自动化乏味重复的工作，例如网络抓取、填表和数据录入？

作家：「是的，绝对会。」

那 AI 智能体是否会在没有人们干预的情况下自动预订假期？

作家：「至少在近期内不太可能。」

原文链接：https://www.kadoa.com/blog/ai-agents-hype-vs-reality

{{userData.name}}已认证

AI智能体的炒作与实际：GPT-4都撑不起，实际使命成功率不到15%

适应多形态多使命，最强开源机器人学习系统「八爪鱼」诞生

清华、华为等提出iVideoGPT：专攻交互式全国模型

刚刚，AI颠覆物理模拟：一句话精准仿真，学术圈半壁江山联手耗时24个月研究成果

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

2024年AI 编程现在可以做到什么程度？

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！

腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践

抢跑OpenAI！谷歌Gemini 2.0震撼登场：全面转向Agent，多模态输入输出，免费随便玩