吴恩达：四个步骤，让大模型变得更好

本周，生成式 AI 的竞争达到了新的高潮。前有 OpenAI 抢先发布 GPT-4o，后有谷歌在 I/O 开发者大会上发布一系列生成式人工智能模型与产品。自 2022 年 11 月 OpenAI 推出 ChatGPT，至今已有 18 个月。学界、业界为了提升生成式 AI 模型的才智，做出了诸多努力。今天，著名人工智能学者、斯坦福大学教授吴恩达高度总结了提升生成式 AI 模型才智的方式，主要包括：1）提升模型的推理才智；2）扩展上下文窗口，并撰写一篇博客阐述了一套通用且高效的 prompt 策略。我们对博客内容进行了

本周，生成式 AI 的竞争达到了新的高潮。

前有 OpenAI 抢先发布 GPT-4o，后有谷歌在 I/O 开发者大会上发布一系列生成式人工智能模型与产品。

自 2022 年 11 月 OpenAI 推出 ChatGPT，至今已有 18 个月。学界、业界为了提升生成式 AI 模型的才智，做出了诸多努力。

今天，著名人工智能学者、斯坦福大学教授吴恩达高度总结了提升生成式 AI 模型才智的方式，主要包括：1）提升模型的推理才智；2）扩展上下文窗口，并撰写一篇博客阐述了一套通用且高效的 prompt 策略。

吴恩达：四个步骤，让大模型变得更好

我们对博客内容进行了不改变原意的编译、整理，以下是博客内容：

本周，谷歌宣布将 Gemini Pro 1.5 的输出上下文窗口扩大一倍，从 100 万 token 扩展到 200 万 token；OpenAI 发布了 GPT-4o，它的生成速度是 GPT-4 Turbo 的 2 倍，而且便宜 50%，原生支持输出、生成多模态 token。这是 18 个月以来的最新进展。

自 2022 年 11 月 ChatGPT 推出以来，随着 GPT-4、Gemini 1.5 Pro、Claude 3 Opus 和 Llama 3-70B 的发布等重要里程碑的到来，许多模型提供商通过两个重要方式提高了自己的才智：

提升模型的推理才智，使 LLM 能够思考繁杂的概念并遵循繁杂的指令；

更长的输出上下文窗口。

GPT-4 和其他高级模型的推理才智使它们非常擅长解释带有仔细说明的繁杂 prompt。许多人习惯向 LLM 快速提出 1 – 2 句话的查询。相比之下，在构建应用程序时，我看到经验丰富的团队经常编辑可能长达 1 – 2 页的 prompt（我的团队称其为「mega-prompt」），这些 prompt 提供繁杂的指令来仔细说明我们希望 LLM 如何执行一个任务。我仍然认为团队在编辑仔细指令方面做得不够好。有关中等长度 prompt 的示例，请查看 Claude 3 的系统 prompt，仔细且为 Claude 应该如何执行任务提供了明确的指导。

吴恩达：四个步骤，让大模型变得更好

这是一种与我们通常在 LLM 网络用户界面中使用的非常不同的 prompt 方式。在这种方式中，我们可能会快速进行查询，如果响应不满意，则通过与聊天机器人反复对话来表述清楚我们想要什么。

此外，输出上下文窗口长度的增加为开发人员的工具箱添加了另一种技术。GPT-3 激发了关于小样本上下文学习的大量研究。例如，如果您使用 LLM 进行文本分类，您可能会提供一些（例如 1 – 5 个）文本片段及其类别标签的样本，以便它可以泛化到其他文本。

GPT-4o 接受 128000 个输出 token，Claude 3 Opus 200000 个 token，Gemini 1.5 Pro 100 万个 token（200 万个 token 目前仅适用于预览版）。然而，随着输出上下文窗口变得越来越长，人们发现 LLM 并不局限于少数样本。通过多样本（many-shot）学习，开发人员可以在 prompt 中给出数十个甚至数百个样本，这比少样本（few-shot）学习效果更好。

在构建繁杂的工作流时，我看到开发人员通过如下过程获得了良好的结果：

编辑快速、简单的 prompt，看看效果如何。

根据输出不足的地方，迭代地充实 prompt。这通常会导致更长、更仔细的 prompt，甚至可能是「mega-prompt」。

如果这仍然不够，请考虑少样本或多样本学习（如果适用），或者不太频繁地进行微调。

如果仍然不能产生您需要的结果，请将任务分解为子任务并应用智能体工作流。

我希望这个过程能够帮助大家更轻松地构建应用程序。如果您有兴趣更深入地研究 prompt 策略，我推荐 Medprompt 论文，其中列出了一组繁杂的 prompt 策略，可以带来非常好的结果。

吴恩达：四个步骤，让大模型变得更好

Medprompt 论文，链接：https://arxiv.org/pdf/2311.16452

参考链接：

This week, Google announced a doubling of Gemini Pro 1.5's input context window from 1 million to 2 million tokens, and OpenAI released GPT-4o, which generates tokens 2x faster and 50% cheaper than GPT-4 Turbo and natively accepts and generates multimodal tokens. I view these…
— Andrew Ng (@AndrewYNg) May 16, 2024

https://www.deeplearning.ai/the-batch/issue-249/

{{userData.name}}已认证

吴恩达：四个步骤，让大模型变得更好

收费！让图片放大不失真的位图转矢量图神器 Tmttool

2024「人工智能 +」标杆演示征集正式开启，7 月巅峰相见！

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

平安人寿ChatBI：大模型智能化报表的深度实践

ChatGPT遇到这些人名开始自闭，OpenAI回应了

字节跳动豆包 AI 文生图“喜提新技能”：App 可生成带有指定文字的图片

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践

OpenAI 从谷歌 DeepMind 挖角三名高级工程师，专注于多模态 AI 研发

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！