吴恩达：AI智能体职责流今年将有巨大进展，可能超过下一代基础模型

下一步是智能体？随着 ChatGPT、GPT-4、Sora 的陆续问世，人工智能的发展趋势引起了宽泛关切，特别是 Sora 让生成式 AI 模型在多模态方面取得显著进展。人们不禁会问：人工智能领域下一个突破方向将会是什么？今天，人工智能著名学者、斯坦福大学教授吴恩达指出：AI 智能体职责流将在今年推动人工智能取得巨大进步，甚至可能超过下一代基础模型。他呼吁所有从事人工智能职责的人都关切 AI 智能体职责流，并撰写一篇博客简单论述了原因。我们对博客内容举行了不改变原意的编译、整理，以下是博客内容：当前，我们主要在零样

下一步是智能体？

随着 ChatGPT、GPT-4、Sora 的陆续问世，人工智能的发展趋势引起了宽泛关切，特别是 Sora 让生成式 AI 模型在多模态方面取得显著进展。人们不禁会问：人工智能领域下一个突破方向将会是什么？

今天，人工智能著名学者、斯坦福大学教授吴恩达指出：AI 智能体职责流将在今年推动人工智能取得巨大进步，甚至可能超过下一代基础模型。他呼吁所有从事人工智能职责的人都关切 AI 智能体职责流，并撰写一篇博客简单论述了原因。

吴恩达：AI智能体职责流今年将有巨大进展，可能超过下一代基础模型

我们对博客内容举行了不改变原意的编译、整理，以下是博客内容：

当前，我们主要在零样本模式下利用 LLM，提供 prompt，逐个 token 地生成最终输出，没有举行调整。

这类似于要求某人从头到尾写一篇文章，直接打字，不允许退格，并期望得到高质量的结果。尽管有困难，LLM 在这项任务上仍然表现得非常好！

然而，通过智能体职责流，我们可以要求 LLM 多次迭代文档。例如，它可能需要执行一系列步调：

规划提纲；

决定需要举行哪些网络搜寻（如果需要），来搜集更多信息；

写草稿；

通读草稿，找出不合理的论点或无关信息；

修改底稿；

……

这个迭代过程对于大多数人类作家写出好的文本至关重要。对于人工智能来说，这种迭代职责流会比单次编辑产生更好的结果。

Cognition AI 团队发布的首个 AI 软件工程师 Devin 最近在社交媒体上引起了宽泛关切。吴恩达的团队一直密切关切 AI 编辑代码的发展，并分析了多个研究团队的结果，重点关切算法在宽泛利用的 HumanEval 编码基准上的表现。

如下图所示，吴恩达的团队发现：GPT-3.5（零样本）的正确率为 48.1%，GPT-4（零样本）的表现更好，为 67.0%。然而，相比于迭代智能体职责流，从 GPT-3.5 到 GPT-4 的改进不大。事实上，在智能体循环（agent loop）中，GPT-3.5 的正确率高达 95.1%。

吴恩达：AI智能体职责流今年将有巨大进展，可能超过下一代基础模型

开源智能体工具和有关智能体的学术文献正在激增。这是一个令人兴奋的时刻，也是一个令人困惑的时刻。为了帮助人们正确看待这项职责，吴恩达分享了一个对构建智能体的设计模式举行分类的框架。

简单来说，这个框架包括：

反思：LLM 检查自己的职责，以提出改进方法。

工具利用：LLM 拥有网络搜寻、代码执行或任何其他功能来帮助其搜集信息、采取行动或处理数据。

规划：LLM 提出并执行一个多步调计划来实现目标（例如，撰写论文提纲，然后举行在线研究，然后撰写底稿……）。

多智能体协作：多个 AI 智能体一起职责，分配任务并讨论和辩论想法，以提出比单个智能体更好的解决方案。

吴恩达表示 AI Fund 已在许多应用程序中成功利用这些模式，后续他将详细论述这些设计模式。

参考链接：

I think AI agentic workflows will drive massive AI progress this year — perhaps even more than the next generation of foundation models. This is an important trend, and I urge everyone who works in AI to pay attention to it.
Today, we mostly use LLMs in zero-shot mode, prompting… pic.twitter.com/nBqySLHqR6
— Andrew Ng (@AndrewYNg) March 21, 2024

https://www.deeplearning.ai/the-batch/issue-241/

{{userData.name}}已认证

吴恩达：AI智能体职责流今年将有巨大进展，可能超过下一代基础模型

苏妈现身北京，AMD喊出了AI PC Yes！

发完最后一篇论文，Stable Diffusion核心团队全要离职了

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

ChatGPT遇到这些人名开始自闭，OpenAI回应了

平安人寿ChatBI：大模型智能化报表的深度实践

字节跳动豆包 AI 文生图“喜提新技能”：App 可生成带有指定文字的图片

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

OpenAI 从谷歌 DeepMind 挖角三名高级工程师，专注于多模态 AI 研发

腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！