比OpenAI官方提醒词指南更全,这26条黄金规则让LLM性能飙升50%以上

今天,穆罕默德・本・扎耶德人工智能大学 VILA Lab 带来了一项关于如何更好地为分歧规模的大模型书写提醒词(prompt)的研究,让大模型性能在不需要任何额外训练的前提下轻松提高 50% 以上。该工作在 X (Twitter)、Reddit 和 LinkedIn 等平台上都引起了广泛的讨论和关注。论文地址: : :Principled Instructions Are All You Need for Questioning LLaMA-1/2, GPT-3.5/4在以 ChatGPT 为首的大模型出来之后,为

今天,穆罕默德・本・扎耶德人工智能大学 VILA Lab 带来了一项关于如何更好地为分歧规模的大模型书写提醒词(prompt)的研究,让大模型性能在不需要任何额外训练的前提下轻松提高 50% 以上。该工作在 X (Twitter)、Reddit 和 LinkedIn 等平台上都引起了广泛的讨论和关注。

比OpenAI官方提醒词指南更全,这26条黄金规则让LLM性能飙升50%以上

论文地址: https://arxiv.org/abs/2312.16171

Github地址: https://github.com/VILA-Lab/ATLAS

论文标题:Principled Instructions Are All You Need for Questioning LLaMA-1/2, GPT-3.5/4

在以 ChatGPT 为首的大模型出来之后,为大谈话模型设计提醒词的研究已经成为一个重要的研究方向,包括 OpenAI 官方也出品了针对 ChatGPT 用户的提醒工程指南 [1] ,其包含了六条书写规则:1)写出清晰的指令;2)供给参考文本;3)将复杂的工作拆分为更单一的子工作;4)给模型时间「思考」;5)利用外部工具;6)系统地测试更改。

由此可见,提醒词对于如何更好地利用大模型以及得到满意的答复都具有重要的意义。然而可以看到的是,OpenAI 供给的这些规则都是比较宽泛和保守的,并没有涉及到一些具体的操作和技巧。

今天要介绍的这篇文章供给了更多也尤其接地气的提醒工程指南,足足有 26 条之多,内容涵盖了:1)答复内容和谈话风格的控制;2)提醒词结构和清晰度;3)复杂工作和代码提醒;4)答复特异性和信息量;5)用户交互和参与等多个方面。

下面让我们来逐条讨论一下这些提醒词规则:

1) 如果您更喜欢更简洁的答案,则无需对 LLM 保持礼貌,因此无需增加诸如 「请」、「如果你不介意」、「谢谢」、「我愿意」等,直奔中心即可。

2) 在提醒中融入目标受众,例如该领域的专家。具体而言,当你告诉大模型你的目标受众是一个孩子,它的答复会尤其通俗易懂,当你告诉它受众是这个领域的专家,它会供给尤其专业和深入的表明。

3) 在交互式对话中将复杂的工作分解为一系列更单一的提醒。 

4) 利用肯定的指令,如「做」,同时避免利用「不要」等否定性谈话。 

5) 当您需要单一清晰或更深入地了解某个中心、想法或任何信息时,请利用下列提醒: 

用单一的术语表明 [插入一定中心]。

像我是 11 岁一样向我表明这个题目。 

向我表明,就好像我是 [领域] 的初学者一样。     

用单一的英语写 [文章 / 文本 / 段落],就像你在向一个 5 岁的孩子表明一些事情一样。 

6) 增加「我要给 $xxx 小费以获得更好的解决方案!」这种提醒词会带来提高的原因可能是:在训练数据中,当涉及到答复是有奖励的,答复的人往往会尤其准确细致,小心谨慎地供给答案,大模型从这些网络数据中学到了这些结构和方式。

7) 实现示例驱动的提醒(利用少样本提醒)。 

8) 格式化提醒时,以「###Instruction###」开首,然后是「###Example###」 或「###Question###」(如果相关)。随后展示您的内容。利用一个或多个换行符用于分隔指令、示例、题目、上下文和输入数据。 

9) 在你的提醒词里面加入下列短语:「你的工作是」和「你必须」。 

10) 在你的提醒词里面加入下列短语:「你会受到惩罚」。 

11) 在提醒中利用「以自然、类似人类的方式答复题目」这句话。 

12) 利用引导性词语,例如写「一步一步地思考」。 

13) 在提醒中加上下列短语:「确保你的答复是公正的,避免依赖刻板印象」。

14) 让模型通过向你提问来引出你精确的细节和要求,直到他得到足够的信息来供给所需的输入(例如,「从现在开始,我希望你问我……」提问)。 

15) 要询问一定中心或想法或任何信息,并且您想测试您的理解,您可以利用 下列短语:「教我任何 [定理 / 中心 / 规则名称],并在末尾包含一个测试,并让我知道是否在我答复后,我的答案是正确的,不要事先供给答案。 」

16) 为大型谈话模型分配角色。 

17) 利用分隔符。 

18) 在提醒中多次重复一定单词或短语。 

19) 将思维链 (CoT) 与 few-Shot 提醒相结合。 

20) 利用输入引导,包括用所需输入的开首结束提醒。利用输入引导,以预期响应的开首结束提醒。 

21) 如果工作是写一篇文章 / 文本 / 段落或任何类型的文本,同时需要尽可能的详细,可以增加提醒词:「写一篇详细的 [论文 / 文本 / 段落],通过增加所有必要的信息从而使我能详细了解 [中心]。 」

22) 在不改变其样式的情况下更正 / 更改一定文本:尝试修改用户发送的每个段落。你应该只提高用户的语法和词汇量,并确保它听起来很自然。您应该保留原始写作风格,确保正式段落保持正式。 

23) 当您有一个复杂的编程提醒时,该提醒可能位于分歧的文件中:「从现在开始,每当您生成跨越多个文件的代码,生成一个可以自动运行的 [编程谈话 ] 脚本,创建指定的文件或对现有文件进行更改以插入生成的代码。[你的题目]」。 

24) 当您想利用一定单词、短语或句子开始或继续文本时,请利用下列方法提醒:

我为你供给开首 [歌词 / 故事 / 段落 / 散文…]:[插入歌词 / 单词 / 句子]。根据供给的单词完成它。保持内容风格一致。 

25) 明确说明模型必须遵循的要求去生成内容, 以关键字、规定、提醒或说明的形式。

26) 如果要编写任何文本,例如文章或段落,并且需要与供给的示例相似,请包括下面提醒语句: 

根据供给的段落利用相同的谈话 [/title/text/essay/answer]。

下列是一些具体的提醒词例子和对应的 GPT-4 输入结果

1. 当我们询问 GPT-4 题目的时候,最后可以加上一句「供给公正的表明,突出科学证据和分歧观点。」可以看到加上该提醒词之后 GPT-4 的答复明显会尤其丰富和有深度。

比OpenAI官方提醒词指南更全,这26条黄金规则让LLM性能飙升50%以上

2. 我们可以供给一些示例让模型更好的理解我们的目标和出发点。

比OpenAI官方提醒词指南更全,这26条黄金规则让LLM性能飙升50%以上

3. 我们可以告诉模型用单一的方法来答复题目,就像是在向一个 5 岁的孩子表明一些事情。可以看到加上和不加这个提醒词,模型的答复在理解困难程度上有明显的差别。

比OpenAI官方提醒词指南更全,这26条黄金规则让LLM性能飙升50%以上

4. 我们可以通过给模型小费的方式,让模型尤其严谨完善的答复题目。

比OpenAI官方提醒词指南更全,这26条黄金规则让LLM性能飙升50%以上

定量实验结果

1. 模型答复质量提高比例:该指标表示在利用提醒词准绳后,题目的答复质量提高的百分比。

比OpenAI官方提醒词指南更全,这26条黄金规则让LLM性能飙升50%以上

可以看到所有提醒词准绳在人工评测中都取得了或多或少的提高,其中准绳 14 获得了 100% 的提高,意味着所有题目通过利用该提醒准绳都获得了提高。与此同时,准绳 1 得到的提高相对于较少。

2. 答复正确性提高:正确性指模型输入或答复的精度,判断标准是答复是否准确、相关且没有错误的。本文同时考虑了分歧模型的绝对正确性和相对于正确性提高两个指标。

比OpenAI官方提醒词指南更全,这26条黄金规则让LLM性能飙升50%以上

上图结果为加入提醒准绳后,大模型答复质量的相对于正确性提高。「small」表示 7B 模型,「medium」表示 13B 模型,「large scale」表示 70B 和 GPT-3.5/4 模型。可以看到大模型在利用提醒词准绳后,提高幅度相对于于小模型和中等模型会尤其显著。

3. 单独每个模型准确度提高比例:

比OpenAI官方提醒词指南更全,这26条黄金规则让LLM性能飙升50%以上

上图是每个分歧大小的模型相对于提高幅度,可以看到类似的现象,模型越大,对于提醒词的响应和答复也越加敏锐,准确性提高也相对于越大。

4. 下图是分歧大小模型对于每条提醒词准绳准确度提高大小具体结果:

比OpenAI官方提醒词指南更全,这26条黄金规则让LLM性能飙升50%以上

提醒词规则数据集

本文在介绍 26 条提醒词规则的同时,还附带发布了一个基于规则提醒词的基准,其中每条规则作者准备了 20 个分歧的题目,每个题目同时包含带有规则和不带规则两种对应的大模型答复。

该数据集可以用在:1)大谈话模型对于提醒词响应的性能评测;2)偏好驱动的大模型微调。

数据集链接:https://github.com/VILA-Lab/ATLAS。

更多提醒词准绳利用方法和说明,欢迎阅读原文。

参考文献

[1] Six strategies for getting better results. OpenAI. https://platform.openai.com/docs/guides/prompt-engineering/six-strategies-for-getting-better-results

给TA打赏
共{{data.count}}人
人已打赏
工程

大模型也有小偷?为保护你的参数,上交大给大模型制作「人类可读指纹」

2024-2-2 17:18:00

工程

抛弃编码器-解码器架构,用聚集模型做边沿检测效果更好,国防科大提出DiffusionEdge

2024-2-8 16:26:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索