Claude都能操纵计算机了，吴恩达：智能体工作流越来越成熟

2024-11-15 01:16

受 ChatGPT 强大问答能力的影响，大型语言模型（LLM）提供商往往优化模型来回答人们的问题，以提供良好的消费者体验。随着智能体研究日趋成熟，优化似乎有了新的方向。人工智能著名学者、斯坦福大学教授吴恩达今天指出：「现在有一种趋势是优化模型以适应智能体工作流程，这将为智能体性能带来巨大提升」，并撰写一篇博客简单阐述了这种趋势。

我们对博客内容进行了不改变原意的编译、整理，以下是博客内容：继 ChatGPT 在回答问题方面取得突破性成功之后，许多 LLM 的开发都集中在提供良好的消费者体验上。因此，LLM 被调整为回答问题或遵循人类提供的指令。指令调整指导模型的数据集很大一部分可以为人类编写的问题和指令提供更有用的答案，面向 ChatGPT、Claude、Gemini 等等。但智能体工作负载不同，人工智能软件不是直接为消费者生成响应，而是应该在迭代工作流程中：

反思自己的输出；
使用工具；
编写规划；
在多智能体环境中进行协作。

主要模型制造商也越来越多地优化用于 AI 智能体的模型。以工具使用（或函数调用）为例。如果 LLM 被问及当前天气，它将无法从训练数据中获取所需的信息。相反，它可能会生成 API 调用请求以获取该信息。甚至在 GPT-4 原生支持函数调用之前，应用程序开发人员就已经使用 LLM 来生成函数调用，通过编写更复杂的提示来告诉 LLM 哪些函数可用，然后让 LLM 生成用于确定是否要调用函数的字符串。在 GPT-4 之后，生成此类调用变得更加可靠，然后许多其他模型本身就支持函数调用。如今，LLM 可以决定调用函数来搜索信息以进行检索增强生成 (RAG)、执行代码、发送电子邮件、在线下订单等等。最近，Anthropic 推出了升级版的 Claude 3.5 Sonnet，能像人一样使用计算机。这意味着 LLM 原生使用计算机方向向前迈出了一大步，将帮助许多开发人员。一些团队还致力于让 LLM 使用计算机构建新一代 RPA（机器人流程自动化）应用程序。随着智能体工作流程的成熟，我看到的是：

首先，许多开发人员正在 prompt LLM 来执行他们想要的智能体行为。这样可以进行快速、丰富的探索！
在极少数情况下，开发非常有价值的应用程序的开发人员将微调 LLM，以更可靠地执行特定的智能体功能。例如，尽管许多 LLM 本身支持函数调用，但它们是通过将可用函数的描述作为输入，然后（希望）生成输出 token 以请求正确的函数调用来实现这一点的。对于生成正确函数调用非常重要的任务关键型应用程序，针对应用程序的特定函数调用微调模型可显著提高可靠性。（但请避免过早优化！我仍然看到太多团队在进行微调，而他们可能应该在采取这种做法之前花更多时间进行 prompt。）
最后，当诸如工具使用或计算机使用之类的能力对开发人员来说似乎很有价值时，主要的 LLM 提供商正在将这些能力直接构建到他们的模型中。尽管 OpenAI o1-preview 的高级推理对消费者有帮助，但我预计它对于智能体推理和规划会更有用。

大多数 LLM 都针对回答问题进行了优化，主要是为了提供良好的消费者体验，我们已经能够将它们「移植」到复杂的智能体工作流程中，以构建有价值的应用程序。为支持智能体中的特定操作而构建 LLM 的趋势将为智能体性能带来很大提升。我相信，在未来几年内，在这个方向上将实现巨大的智能体能力提升。原文链接：https://www.deeplearning.ai/the-batch/issue-275/

清华、小米、华为、 vivo、理想等多机构联合综述，首提个人LLM智能体、划分5级智能水平

嘿 Siri、你好小娜、小爱同学、小艺小艺、OK Google、小布小布……想必这些唤醒词中至少有一个曾被你的嘴发出并成功呼唤出了一个能给你导航、讲笑话、添加日程、设置闹钟、拨打电话的智能个人助理（IPA）。可以说 IPA 已经成了现代智能手机不可或缺的标配，近期的一篇综述论文更是认为「个人 LLM 智能体会成为 AI 时代个人计算的主要软件范式」。这篇个人 LLM 智能体综述论文来自国内多所高校和企业研究所，包括清华大学、小米、华为、欢太、vivo、云米、理想汽车、北京邮电大学、苏州大学。文中不仅梳理了个人 LL

1/22/2024 11:44:00 AM

机器之心

吴恩达：AI智能体工作流今年将有巨大进展，可能超过下一代基础模型

下一步是智能体？随着 ChatGPT、GPT-4、Sora 的陆续问世，人工智能的发展趋势引起了广泛关注，特别是 Sora 让生成式 AI 模型在多模态方面取得显著进展。人们不禁会问：人工智能领域下一个突破方向将会是什么？今天，人工智能著名学者、斯坦福大学教授吴恩达指出：AI 智能体工作流将在今年推动人工智能取得巨大进步，甚至可能超过下一代基础模型。他呼吁所有从事人工智能工作的人都关注 AI 智能体工作流，并撰写一篇博客简单阐述了原因。我们对博客内容进行了不改变原意的编译、整理，以下是博客内容：当前，我们主要在零样

3/22/2024 2:57:00 PM

机器之心

吴恩达：别光盯着GPT-5，用GPT-4做个智能体可能提前达到GPT-5的效果

智能体的潜力被低估了？AI 智能体是去年很火的一个话题，但是 AI 智能体到底有多大的潜力，很多人可能没有概念。最近，斯坦福大学教授吴恩达在演讲中提到，他们发现，基于 GPT-3.5 构建的智能体工作流在应用中表现比 GPT-4 要好。当然，基于 GPT-4 构建的智能体工作流效果更好。由此看来，AI 智能体工作流将在今年推动人工智能取得巨大进步，甚至可能超过下一代基础模型。这是一个值得所有人关注的趋势。这个关于智能体的演讲在社交媒体上引发了广泛关注。有人表示，这代表着 AI 发展中的范式转变，体现了从静态输出到动

4/1/2024 11:27:00 AM

机器之心

资讯热榜

这样在本地搭建DeepSeek可以直接封神：本地部署+避坑指南（升级版）基于 Spring AI + MCP + DeepSeek-R1-7B 构建企业级智能 Agent 工具调用系统 Manus开源平替！Kortix-AI正式发布开源通用AI智能体平台Suna Trae v1.3.0重磅更新，新增MCP与.rules支持引领AI开发新体验纳米AI发布MCP万能工具箱，简化AI工具集成与调用 Figma 推 AI 革命：开发智能应用制作器与网站创建工具 AI视频资讯早读！7个产品更新+8个案例精选即梦3.0海外版发布，电影级视觉与精准英文排版引领AI创作新高度

标签云

人工智能 OpenAI AIGC AI ChatGPT AI绘画 DeepSeek 数据机器人模型谷歌大模型 Midjourney 智能开源用户学习 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Anthropic Sora 3D AI for Science AI设计机器学习 GPU AI视频开发者场景华为预测百度人形机器人伟达苹果 Transformer 深度学习模态 xAI 大语言模型字节跳动 Claude 搜索驾驶文本具身智能神器推荐 Copilot LLaMA 算力视频生成安全干货合集视觉应用大型语言模型科技亚马逊训练特斯拉 AGI 2024

顶部

Claude都能操纵计算机了，吴恩达：智能体工作流越来越成熟

相关资讯

清华、小米、华为、 vivo、理想等多机构联合综述，首提个人LLM智能体、划分5级智能水平

吴恩达：AI智能体工作流今年将有巨大进展，可能超过下一代基础模型

吴恩达：别光盯着GPT-5，用GPT-4做个智能体可能提前达到GPT-5的效果