LangChain 研究揭示AI代理在工具使用上面临瓶颈

随着人工智能(AI)技术的不断进步,企业开始探讨是否应该依赖单一的 AI 代理,还是构建一个涵盖更多职能的多代理网络。 近日,Orchestration 框架公司 LangChain 进行了相关实验,旨在探讨 AI 代理在面对过多指令和工具时的表现极限。 LangChain 在一篇博客中详细介绍了其实验过程,关注的核心问题是:“当一个 ReAct 代理被要求处理过多的指令和工具时,其性能会在何种情况下下降?” 为了回答这一问题,研究团队选择了 ReAct 代理框架,因其被认为是 “最基础的代理架构之一”。

随着人工智能(AI)技术的不断进步,企业开始探讨是否应该依赖单一的 AI 代理,还是构建一个涵盖更多职能的多代理网络。近日,Orchestration 框架公司 LangChain 进行了相关实验,旨在探讨 AI 代理在面对过多指令和工具时的表现极限。

LangChain 在一篇博客中详细介绍了其实验过程,关注的核心问题是:“当一个 ReAct 代理被要求处理过多的指令和工具时,其性能会在何种情况下下降?” 为了回答这一问题,研究团队选择了 ReAct 代理框架,因其被认为是 “最基础的代理架构之一”。

机器人 人工智能2025

图源备注:图片由AI生成,图片授权服务商Midjourney

在实验中,LangChain 的目标是评估一名内部邮件助手在两项具体任务中的表现:答复客户问题和安排会议。研究人员使用了一系列预构建的 ReAct 代理,并通过 LangGraph 平台对其进行测试。涉及的语言模型包括 Anthropic 的 Claude3.5Sonnet、Meta 的 Llama-3.3-70B 以及 OpenAI 的多个版本如 GPT-4o 等。

实验的第一步是测试邮件助手的客户支持能力,具体来看,代理如何接受客户的邮件并给予回复。接着,LangChain 还特别关注了代理在日历安排上的表现,确保它能够准确记住特定指令。

研究人员设定了每个任务30项的压力测试,并将其分为客户支持和日历安排两个领域。结果显示,当给代理过多的任务时,它们常常会感到不堪重负,甚至忘记调用必要的工具。例如,在处理多达七个领域的任务时,GPT-4o 的表现下降至2%。而 Llama-3.3-70B 则在任务测试中失误频频,未能调用发送邮件的工具。

LangChain 发现,随着提供上下文的增加,代理的指令执行能力显著下降。尽管 Claude-3.5-sonnet 和其他几种模型在多领域任务中表现相对较好,但在任务复杂性增加时,它们的性能也会逐步下降。公司表示,未来将进一步探讨如何评估多代理架构,以改善代理的性能。

相关资讯

Anthropic首席执行官:人工智能推动人类寿命翻倍的愿景

在瑞士达沃斯举行的世界经济论坛上,Anthropic首席执行官达里奥・阿莫代(Dario Amodei)表示,人工智能(AI)在生物学领域的快速进展有望在五到十年内实现人类寿命的翻倍。 他认为,如果能有效利用 AI,缩短生物研究的时间,一百年的生物学进展可能在短短五到十年内实现。 阿莫代提到,Anthropic正在研发一种 “虚拟合作者”,这种 AI 代理能够在工作场所中执行高级任务,比如打开 Google 文档、使用 Slack 消息通道以及与员工互动。

OpenAI发布首个AI智能体Operator,首批面向ChatGPT Pro用户

OpenAI 宣布推出其最新 AI 代理 “Operator”,这一工具旨在帮助用户在网络上执行各种任务。 OpenAI 在其博客中表示,Operator 正在进行 “研究预览”,初步面向美国的 ChatGPT Pro 订阅用户,月费为200美元。 Operator 的设计理念是通过一种称为 “计算机使用代理” 的模型,结合了 GPT-4o 的视觉能力和强化学习的高级推理,能够与图形用户界面(GUI)进行交互。

HuggingFace发布AI Agent课程

Hugging Face 近期推出了一门名为 “Agent课程” 的在线学习课程,旨在帮助学习者深入理解智能Agent的基础知识及应用。 课程内容丰富,共分为五个单元,从Agent的基本概念到最终的作业评估,循序渐进,帮助学员掌握所需技能。 课程的首个单元为 “欢迎来到课程”,提供了课程的概述、指导方针以及所需工具,确保学员在学习过程中拥有良好的基础。