检索加强生成(RAG)和微调(Fine-tuning)是提升大说话模型性能的两种常用步骤,那么到底哪种步骤更好?在建设一定领域的应用时哪种更高效?微软的这篇论文供你选择时举行参考。
在构建大说话模型应用程序时通常有两种常见的步骤来整合专有和一定领域的数据:检索加强生成和微调。检索加强生成通过外部数据加强提醒,而微调将额外的知识整合到模型本身中。不过,对这两种步骤的优缺点了解的却不够充分。
本文中,来自微软的研讨者引入一个新的关注点:为需要一定背景和自适应响应的行业(农业)创建 AI 助手。本文提出了一个全面的大说话模型过程,用于生成高品质的、行业一定的课题和谜底。该步骤包含一个系统化的过程,包括鉴别和收集涵盖广泛农业主题的相关文档。接着清理和结构化这些文档,以便使用基本的 GPT 模型生成有意义的问答对。生成的问答对随后根据其品质举行评价和筛选。
本文的目标是为一定行业创建有价值的知识资源,以农业为案例研讨,最终的目标是能为 LLM 在农业领域的发展做出贡献。
论文地址:https://arxiv.org/pdf/2401.08406.pdf
论文标题:RAG vs Fine-tuning: Pipelines, Tradeoffs, and a Case Study on Agriculture
本文提出的过程旨在生成满足某个行业中专业人员和利益相关者需求的领域一定课题和谜底,在该行业中,期望从 AI 助手那里得到的谜底应该基于相关的行业一定因素。
本文涉及的是农业研讨,目标是生成该一定领域的谜底。因此研讨的起点是农业数据集,它被输入到三个主要组件中:问答生成、检索加强生成和微调过程。问答生成根据农业数据集中的信息创建问答对,检索加强生成将其用作知识源。生成的数据经过精炼,并用于微调多个模型,其品质通过一组提出的怀抱尺度举行评价。通过这种全面的步骤,利用大说话模型的力量,造福农业行业及其他利益相关者。
本文对大说话模型在农业领域的理解做出了一些特殊贡献,这些贡献可以归纳如下:
1、对 LLMs 的全面评价:本文对大说话模型举行了广泛评价,包括 LlaMa2-13B、GPT-4 和 Vicuna,以答复与农业相关的课题。使用了来自主要农业生产国的基准数据集举行评价。本文的分析中,GPT-4 一直表现优于其它模型,但也需要考虑与其微调和推理相关的成本。
2、检索技术和微调对性能的影响:本文研讨了检索技术和微调对 LLMs 性能的影响。研讨发现,检索加强生成和微调都是提高 LLMs 性能的有效技术。
3、LLMs 在不同行业潜在应用的影响:对于想要建立 RAG 和微调技术在 LLMs 中应用的过程而言,本文走出了开创性的一步,并促进了多个行业之间的创新和合作。
步骤
本文第 2 部分详细介绍采用了步骤论,包括数据获取过程、信息提取过程、课题和谜底生成,以及模型的微调。该步骤论围绕着一个旨在生成和评价用于构建领域一定助手的问答对过程展开,如下图 1 所示。
该过程以数据获取开始,这包括从各种高品质的存储库中获取数据,比如政府机构、科学知识数据库,以及必要时使用专有数据。
在完成数据获取后,过程继续从收集的文档中提取信息。这一步骤至关重要,因为它涉及解析复杂且非结构化的 PDF 文件,以恢复其中的实质和结构。下图 2 展示了数据集中一个 PDF 文件的示例。
过程的下一个组成部分是课题和谜底生成。这里的目标是生成有上下文基础的高品质课题,准确反映提取文本的实质。本文步骤采用了一个框架来控制输入和输出的结构组成,从而加强说话模型生成响应的整体效果。
随后,过程为制定的课题生成谜底。此处采用的步骤利用了检索加强生成,结合了检索和生成机制的能力,以创建高品质的谜底。
最后,过程通过 Q&A 对微调模型。优化过程采用了低秩调整(LoRA)等步骤,确保全面理解科学文献的实质和背景,使其成为各个领域或行业的有价值资源。
数据集
研讨中评价了经过微调和检索加强生成的说话模型,使用与背景相关的课题和谜底数据集,这些数据集来源于三个主要的作物生产国:美国、巴西和印度。本文的案例中,以农业作为工业背景。可用的数据在格式和实质上变化很大,涵盖了法规文件、科学报告、农学考试以及知识数据库等各种类型。
本文从美国农业部、州农业和消费者服务机构等公开可获得的在线文档、手册和报告中收集了信息。
可获得的文档包括了有关作物和牲畜管理、疾病和最佳实践的联邦法规和政策信息,品质保证和出口法规,援助计划的详细信息,以及保险和定价指南。收集的数据总计超过 23,000 个 PDF 文件,包含超过 5000 万个 tokens,涵盖了美国 44 个州。研讨者下载并预处理了这些文件,提取了可以用作问答生成过程输入的文本信息。
为了对模型举行基准测试和评价,本文使用了与华盛顿州相关的文档,其中包括 573 个文件,包含超过 200 万个 tokens。如下清单 5 展示了这些文件中的实质示例。
怀抱尺度
本节的主要目的是建立一套全面的怀抱尺度,目的是指导对问答生成过程的品质评价,尤其是对微调和检索加强生成步骤的评价。
在开发怀抱尺度时,必须考虑几个关键因素。首先,课题品质中固有的主观性提出了重大挑战。
其次,怀抱尺度必须考虑到课题的相关性、实用性对上下文的依赖性。
第三,需要评价生成课题的多样性和新颖性。强大的课题生成系统应该能够产生涵盖给定实质各个方面的广泛课题。然而,对多样性和新颖性举行量化可能面临着挑战,因为这涉及到评价课题的独特性以及它们与实质、其他生成课题的相似性。
最后,好的课题应该能够基于提供的实质得到答复。评价课题是否可以使用现有信息来准确答复,这需要对实质举行深刻的理解,并具备识别答复课题的相关信息的能力。
这些怀抱尺度在确保模型提供的谜底准确、相关且有效地答复课题方面发挥着不可或缺的作用。然而,在专门设计用于评价课题品质的怀抱尺度方面存在显著的缺失。
意识到这一缺失,本文专注于开发旨在评价课题品质的怀抱尺度。考虑到课题在推动有意义的对话和生成有用谜底方面的关键作用,确保课题品质与确保谜底品质同样重要。
本文开发的怀抱尺度旨在弥补以往研讨在这一领域的空缺,提供一种全面评价课题品质的手段,这将对问答生成过程的进展产生显著影响。
课题评价
本文开发的用于评价课题的怀抱尺度如下:
相关性
全局相关性
覆盖范围
堆叠度
多样性
详细程度
阻塞度
谜底评价
由于大说话模型倾向于生成长而详细的、富有信息的对话式答复,因此评价它们生成的谜底是具有挑战性的。
本文使用了 AzureML 模型评价,采用以下怀抱尺度来将生成的谜底与实际情况举行比较:
一致性:在给定上下文的情况下,比较实际情况与预测之间的一致性。
相关性:衡量谜底在上下文中如何有效地答复课题的主要方面。
真实性:定义了谜底是否逻辑上符合上下文中包含的信息,并提供一个整数分数来确定谜底的真实性。
模型评价
为了评价不同的微调模型,本文使用了 GPT-4 作为评价器。利用 GPT-4 从农业文档中生成了约 270 个课题和谜底对,作为实际情况数据集。对于每个微调模型和检索加强生成模型,生成这些课题的谜底。
本文对 LLMs 举行了多个不同怀抱尺度的评价:
带有指南的评价:对于每个问答实际情况对,本文提醒 GPT-4 生成一个评价指南,列出正确谜底应包含的实质。然后,GPT-4 被提醒根据评价指南中的尺度,为每个谜底打分,分数范围从 0 到 1。下面是一个例子:
简洁性:创建了描述简洁和冗长谜底可能包含实质的评分表。基于该评分表、实际情况谜底和 LLM 谜底提醒 GPT-4,并要求根据 1 到 5 的分数给出评分。
正确性:本文创建了一个描述完整、部分正确或不正确的谜底应包含实质的评分表。基于该评分表、实际情况谜底和 LLM 谜底提醒 GPT-4,并要求给出正确、不正确或部分正确的评分。
尝试
本文的尝试被划分为几个独立的尝试,每个尝试都侧重于问答生成和评价、检索加强生成和微调的一定方面。
这些尝试探索以下领域:
问答品质
上下文研讨
模型到怀抱的计算
组合生成与分别生成对比
检索消融研讨
微调
问答品质
该尝试评价了三个大说话模型,即 GPT-3、GPT-3.5 和 GPT-4,在不同上下文树立下生成的问答对的品质。品质评价基于多个指标,包括相关性、覆盖范围、堆叠度和多样性。
上下文研讨
该尝试研讨了不同上下文树立对模型生成问答对性能的影响。它在三种上下文树立下评价生成的问答对:无上下文、上下文和外部上下文。表 12 中提供了一个示例。
在无上下文树立中,GPT-4 在三个模型中具有最高的覆盖率和大小的提醒,表明它可以涵盖更多的文本部分,但生成的课题更冗长。然而,三个模型在多样性、堆叠度、相关性和阻塞度方面的数值都相似。
当包含上下文时,与 GPT-3 相比,GPT-3.5 的覆盖率略有增加,而 GPT-4 保持了最高的覆盖率。对于 Size Prompt,GPT-4 具有最大的数值,表明其能够生成更冗长的课题和谜底。
在多样性和堆叠度方面,三个模型表现相似。对于相关性和阻塞度,与其他模型相比,GPT-4 略有增加。
在外部上下文树立中,也有类似的情况。
此外,观察每个模型时,无上下文树立似乎在平均覆盖率、多样性、堆叠度、相关性和阻塞度方面为 GPT-4 提供了最佳平衡,但生成的问答对较短。上下文树立导致了较长的问答对和其他指标的轻微下降,除了大小。外部上下文树立生成的问答对最长,但保持了平均覆盖率,并在平均相关性和阻塞度上略有增加。
总体而言,对于 GPT-4,无上下文树立在平均覆盖率、多样性、堆叠度、相关性和阻塞度方面似乎提供了最佳平衡,但生成的谜底较短。上下文树立导致了更长的提醒和其他指标的轻微下降。外部上下文树立生成的提醒最长,但保持了平均覆盖率,并在平均相关性和阻塞度上略有增加。
因此,在这三者之间的选择将取决于任务的具体要求。如果不考虑提醒的长度,则由于更高的相关性和阻塞度分数,外部上下文可能是最佳选择。
模型到怀抱的计算
该尝试比较了在用于计算评价问答对品质的怀抱尺度时,GPT-3.5 和 GPT-4 的表现。
总体上,虽然 GPT-4 通常将生成的问答对评价为更具阻塞性和上下文真实性,但与 GPT-3.5 的评分相比, 它们的多样性和相关性较低。这些观点对于理解不同模型如何感知和评价生成实质的品质至关重要。
组合生成与单独生成的对比
该尝试探讨了单独生成课题和谜底与组合生成课题和谜底之间的优劣,并侧重于在 token 使用效率方面的比较。
总的来说,仅生成课题的步骤提供更好的覆盖范围和较低的多样性,而组合生成步骤在堆叠度和相关性方面得分更高。在阻塞度方面,两种步骤表现相似。因此在这两种步骤之间的选择将取决于任务的具体要求。
如果目标是覆盖更多信息并保持更多的多样性,那么只生成课题的步骤会更受青睐。然而,如果要与源材料保持较高的堆叠度,那么组合生成步骤将是更好的选择。
检索消融研讨
这个尝试评价了检索加强生成的检索能力,这是一种通过在课题答复过程中提供额外上下文来加强 LLMs 固有知识的步骤。
本文研讨了检索的片段数量 (即 top-k) 对结果的影响,并在表 16 中呈现了结果。通过考虑更多的片段,检索加强生成能够更一致地恢复原始摘录。
为确保模型能够处理来自各种地理背景和现象的课题,需要扩展支持文档的语料库,以涵盖各种主题。随着考虑更多文档,预计索引的大小将增加。这可能会在检索过程中增加相似片段之间的碰撞数量,从而阻碍恢复输入课题的相关信息的能力,降低召回率。
微调
该尝试评价了微调模型与基础指令微调模型的性能差异。目的在于了解微调对帮助模型学习新知识的潜力。
对于基础模型,本文评价了开源模型 Llama2-13B-chat 和 Vicuna-13B-v1.5-16k。这两个模型相对较小,代表了计算与性能之间的有趣权衡。这两个模型都是 Llama2-13B 的微调版本,使用了不同的步骤。
Llama2-13B-chat 通过监督微调和强化学习举行了指令微调。Vicuna-13B-v1.5-16k 是通过在 ShareGPT 数据集上举行监督微调的指令微调版本。此外,本文还评价了基础的 GPT-4,作为一个更大、更昂贵和更强大的替代方案。
对于微调模型,本文直接在农业数据上对 Llama2-13B 举行微调,以便将其性能与为更通用任务举行微调的类似模型举行比较。本文还对 GPT-4 举行微调,以评价微调在非常大的模型上是否仍然有帮助。带有指南的评价结果见表 18。
为全面衡量答复的品质,除了准确性外,本文还评价了答复的简洁性。
表 21 中显示,这些模型并不始终对课题提供完整的答复。例如,有些答复指出土壤流失是一个课题,但并没有提到空气品质。
总的来说,就准确而简洁地答复参考谜底而言,性能最好的模型是 Vicuna + 检索加强生成、GPT-4 + 检索加强生成、GPT-4 微调和 GPT-4 微调 + 检索加强生成。这些模型提供了精确性、简洁性和信息深度的平衡混合。
知识发现
本文的研讨目标是探索微调对帮助 GPT-4 学习新知识的潜力,这对应用研讨至关重要。
为了测试这一点,本文选择了在美国的 50 个州中至少有三个州相似的课题。然后计算了嵌入的余弦相似度,并确定了 1000 个这样的课题列表。这些课题从训练集中删除,使用微调和带有检索加强生成的微调来评价 GPT-4 是否能够根据不同州之间的相似性学习新知识。
更多尝试结果请参阅原论文。