站在巨人的肩膀上会让你看的更远,而通过让大规模言语模型来「教」较小规模的言语模型举行推理,也会是事半功倍的效果。
如你我所见,像 GPT-4、PaLM 等前沿言语模型已经展现了出色的推理本领,例如回覆复杂问题、生成解释,甚至办理需要多步推理的问题,这些本领曾被认为是 AI 无法达到的。这样的本领在较小的言语模型中并不明显,因此现在的挑战就是如何利用对大型言语模型不断增长的知识,进而提升较小模型的本领。
之前微软研究院推出了 Orca,它是拥有 130 亿参数的言语模型,通过模仿更强大 LLM 的慢慢推理过程,展现了强大的推理本领。
现在研究者再接再厉推出了 Orca 2,继续探索如何通过改进训练信号来提升较小言语模型的推理本领。
论文地址:https://arxiv.org/pdf/2311.11045.pdf
Hugging Face 地址 1:https://huggingface.co/microsoft/Orca-2-13b
Hugging Face 地址 2:https://huggingface.co/microsoft/Orca-2-7b
训练小型言语模型的研究通常依赖于模仿学习,以复现更强大模型的输出。过分强调模仿可能会限制较小模型的潜力。研究者的想法是致力于教导小型言语模型在差别任意中应用差别的办理方略,这些方略可能与更大模型应用的差别。更大的模型可能对复杂任意直接提供答案,但较小模型或许没有不异的本领。
在 Orca 2 中,研究者教给模型各种推理技巧(慢慢推理、先回想再生成、回想 – 推理 – 生成、直接回覆等),这样做旨在帮助模型学会为每个任意确定最有效的办理方略。
研究者应用「包括大约 100 个任意和超过 36,000 个独特提示」的全面集合的 15 个差别基准来评价 Orca 2。在 Zero-shot 环境中对高级推理本领举行评价的复杂任意中,Orca 2 明显超越了相似规模的模型,并达到了与 5-10 倍大型模型相似或更好的性能水平。Orca 2 已经开源,以鼓励人们在较小言语模型的开发、评价和对齐方面举行更深入的研究。
Orca 2 有两个规模(70 亿和 130 亿参数),均通过在定制高质量合成数据上对相应的 LLaMA 2 基础模型举行微调而创建。
图 1:Orca 2(7B 和 13B)与 LLaMA-2-Chat(13B 和 70B)以及 WizardLM(13B 和 70B)在各种基准测试上的结果 (zero-shot),涵盖了言语理解、常识推理、多步推理、数学问题办理等。Orca 2 模型的表现不逊于或超越包括 5-10 倍更大的模型在内的所有其他模型。这里所有模型都应用不异尺寸的 LLaMA 2 基础模型。
图 2:演示 Orca 2、其基础模型 LLaMA 2、LLaMA 2-Chat 和 ChatGPT(GPT-3.5-Turbo)对一个推理问题的赞同的示例。LLaMA 2 和 LLaMA 2-Chat 模型的赞同分别应用 replicate.com/meta/llama-2-13b 和 chat.lmsys.org 生成。
技术细节
Orca 2 可以给出一个有力的推测即差别的任意可能受益于差别的办理方略(如慢慢处理、回想后生成、回想 – 推理 – 生成、提取 – 生成和直接回覆),并且大型模型采用的办理方略可能不是较小模型的最佳选择。例如,虽然像 GPT-4 这样的模型可能轻松生成直接回覆,但是较小的模型可能缺乏这种本领,需要采用差别的方法,如慢慢思考。
因此,单纯地教导较小模型「模仿」更强大模型的推理行为可能并不是最优的选择。虽然将较小模型训练成慢慢解释答案已被证明是有益的,但在多种方略上举行训练使其能够更灵活地选择适合任意的方略。
研究者应用「慎重推理」(Cautious Reasoning)来指代决定为给定任意选择哪种办理方略的行为,包括直接生成答案,或者采用多种「慢思考」方略之一(如慢慢、猜测和检查或先解释后回覆等)。
以下是训练慎重推理 LLM 的过程:
1. 从多样化的任意集开始。
2. 依据 Orca 的性能,决定哪些任意需要哪种办理方略(例如直接回覆、慢慢处理、先解释后回覆等)。
3. 为每个任意编写相应于所选方略的特定体系指导,以获得每个任意的「西席」体系的赞同。
4. 提示擦除:在训练时,用不包含如何处理任意细节的通用指令替换「学生」体系的指令。
注意一点,第 3 步中广泛的获取「西席」体系的赞同:它可以利用多个调用、非常详细的指令等。
关键思想是:在没有详细说明如何处理任意的原始体系指导的情况下,学生模型将被鼓励学习该基本方略以及它所涉及的推理本领。研究者将这一技术称为「提示擦除」,因为它去除了西席模型构建其推理的结构。借助这一技术,研究者实现了 Orca 2—— 一个慎重的推理模型。
Orca 2 应用扩展的、高度定制的合成数据集举行训练。生成的训练数据用以教导 Orca 2 各种推理技巧,例如慢慢处理、回想后生成、回想 – 推理 – 生成、提取 – 生成和直接回覆方法,同时也教导它为差别的任意选择差别的办理方略。
训练数据是从更有本领的「西席」体系模型获取的。研究者可以通过非常详细的指导甚至多次调用来获取「西席」体系的赞同,这取决于任意和模型缩期望的行为。在没有原始指导的情况下,即没有详细说明如何处理任意,「学生」体系模型将被鼓励学习该基本方略以及它所激发的推理本领。
实验结果
推理
推理本领在确定 LLMs 的功效方面至关重要。研究者通过举行各种基准测试,如 AGI Eval、BigBench-Hard(BBH)、DROP、RACE、GSM8K 和 CRASS,来评价 Orca 2 模型的推理本领。这些基准测试的平均性能如下图 4 所示。
通过比较 Orca 2 与其它模型,研究者有以下发现:
超越不异规模的模型。Orca-2-13B 在 zero-shot 推理任意上显著优于不异规模的模型。相对于 LLaMA-2-Chat-13B,Orca-2-13B 提升了 47.54%,相对于 WizardLM-13B 提升 28.15%。值得注意的是,这三个模型 Orca-2-13B、LLaMA-2-Chat-13B 和 WizardLM-13B 都基于不异的基础模型,这也凸显了 Orca 2 采用的训练过程的有效性。
媲美 5-10 倍更大的模型。Orca-2-13B 超越了 LLaMA-2-Chat-70B 的性能,并且在表现上与 WizardLM-70B 和 ChatGPT 相当。在所有推理任意上,Orca-2-7B 要么更好,要么与 LLaMA2-Chat-70B 相当。
慎重的体系消息提供小幅增益。应用慎重的体系消息对 7B 和 13B 模型都比空体系消息提供了小幅增益。
知识与言语理解
MMLU、ARC-Easy 和 ARC-Challenge 评价 LLMs 的言语理解、知识和推理。与其他基准一样,研究者仅与经过指令调整的模型举行比较,举行 zero-shot 评价。下表 2 显示了知识和言语理解基准的结果。总体而言,我们可以观察到与推理任意相似的趋势。
文本补全
除了衡量高级推理本领的基准外,研究者应用 HellaSwag 和 LAMBADA 来衡量文本补全本领。HellaSwag 以多项选择题的形式测量文本补全技能,而 LAMBADA 是一个单词补全任意。
下图 5 显示了差别模型在文本补全基准上的表现。在 HellaSwag 上,Orca-2-7B 和 Orca 2-13B 表现出色,优于 13B 和 70B 基准。Orca-2-13B 相对于 LLaMA-2-Chat-13B 提高了 33.13%,相对于 WizardLM-13B 提高了 61.94%。
多轮开放式对话
研究者在多轮会话设置中评价 LLMs 的本领,应用了 MT Bench 数据集。每轮得分和 MTBench 的平均得分如下表 3 所示。
Orca-2-13B 与其他 13B 模型相比表现相当。Orca-2-13B 的平均第二轮得分低于第一轮得分,这可以归因于其训练数据中缺乏对话。然而,Orca 2 仍然能够参与对话,并通过将多个 zero-shot 示例打包到不异的输入序列中,增强这种本领。提高 Orca 2 的多轮对话本领将是研究者未来工作的一部分。
特定背景下的表现
生成在特定背景下有根据的赞同是许多 LLM 应用程序中期望的属性。研究者应用三个差别的任意举行此评价,涵盖基于查询的会议总结、Web 问答(生成并具有长格式答案)和医生 – 患者对话总结。提取式总结和具体问题回覆经常被用作评价具体背景性的测试平台。
下图 6 展示了研究者在举行实验的三个基准上,差别模型的幻觉率结果平均值比较。
Orca-2-13B 在所有 Orca 2 变体以及其他 13B 和 70B 的 LLM 中表现出最低的幻觉率。与 LLaMA-2-13B 和 WizardLM-13B 模型相比,Orca-2-13B 的幻觉率分别降低了 76.92% 和 61.71%。尽管在本研究中涉及的三个任意中,慎重的体系消息增加了幻觉率。
通过人工分析,研究者发现在由慎重体系消息引导的推理过程中,Orca 2 可能会推断上下文中可用的信息,并应用推断出的内容来创建摘要。生成的内容在事实上通常是准确的,但它们没有得到上下文的支持。
更多细节请参见原论文。