RAG还是微调？微软出了一份一定领域大模型应用建设过程指南

检索加强生成（RAG）和微调（Fine-tuning）是提升大说话模型性能的两种常用步骤，那么到底哪种步骤更好？在建设一定领域的应用时哪种更高效？微软的这篇论文供你选择时举行参考。在构建大说话模型应用程序时通常有两种常见的步骤来整合专有和一定领域的数据：检索加强生成和微调。检索加强生成通过外部数据加强提醒，而微调将额外的知识整合到模型本身中。不过，对这两种步骤的优缺点了解的却不够充分。本文中，来自微软的研讨者引入一个新的关注点：为需要一定背景和自适应响应的行业（农业）创建 AI 助手。本文提出了一个全面的大说话模型

检索加强生成（RAG）和微调（Fine-tuning）是提升大说话模型性能的两种常用步骤，那么到底哪种步骤更好？在建设一定领域的应用时哪种更高效？微软的这篇论文供你选择时举行参考。

在构建大说话模型应用程序时通常有两种常见的步骤来整合专有和一定领域的数据：检索加强生成和微调。检索加强生成通过外部数据加强提醒，而微调将额外的知识整合到模型本身中。不过，对这两种步骤的优缺点了解的却不够充分。

本文中，来自微软的研讨者引入一个新的关注点：为需要一定背景和自适应响应的行业（农业）创建 AI 助手。本文提出了一个全面的大说话模型过程，用于生成高品质的、行业一定的课题和谜底。该步骤包含一个系统化的过程，包括鉴别和收集涵盖广泛农业主题的相关文档。接着清理和结构化这些文档，以便使用基本的 GPT 模型生成有意义的问答对。生成的问答对随后根据其品质举行评价和筛选。

本文的目标是为一定行业创建有价值的知识资源，以农业为案例研讨，最终的目标是能为 LLM 在农业领域的发展做出贡献。

RAG还是微调？微软出了一份一定领域大模型应用建设过程指南

论文地址：https://arxiv.org/pdf/2401.08406.pdf

论文标题：RAG vs Fine-tuning: Pipelines, Tradeoffs, and a Case Study on Agriculture

本文提出的过程旨在生成满足某个行业中专业人员和利益相关者需求的领域一定课题和谜底，在该行业中，期望从 AI 助手那里得到的谜底应该基于相关的行业一定因素。

本文涉及的是农业研讨，目标是生成该一定领域的谜底。因此研讨的起点是农业数据集，它被输入到三个主要组件中：问答生成、检索加强生成和微调过程。问答生成根据农业数据集中的信息创建问答对，检索加强生成将其用作知识源。生成的数据经过精炼，并用于微调多个模型，其品质通过一组提出的怀抱尺度举行评价。通过这种全面的步骤，利用大说话模型的力量，造福农业行业及其他利益相关者。

本文对大说话模型在农业领域的理解做出了一些特殊贡献，这些贡献可以归纳如下：

1、对 LLMs 的全面评价：本文对大说话模型举行了广泛评价，包括 LlaMa2-13B、GPT-4 和 Vicuna，以答复与农业相关的课题。使用了来自主要农业生产国的基准数据集举行评价。本文的分析中，GPT-4 一直表现优于其它模型，但也需要考虑与其微调和推理相关的成本。

2、检索技术和微调对性能的影响：本文研讨了检索技术和微调对 LLMs 性能的影响。研讨发现，检索加强生成和微调都是提高 LLMs 性能的有效技术。

3、LLMs 在不同行业潜在应用的影响：对于想要建立 RAG 和微调技术在 LLMs 中应用的过程而言，本文走出了开创性的一步，并促进了多个行业之间的创新和合作。

步骤

本文第 2 部分详细介绍采用了步骤论，包括数据获取过程、信息提取过程、课题和谜底生成，以及模型的微调。该步骤论围绕着一个旨在生成和评价用于构建领域一定助手的问答对过程展开，如下图 1 所示。

RAG还是微调？微软出了一份一定领域大模型应用建设过程指南

该过程以数据获取开始，这包括从各种高品质的存储库中获取数据，比如政府机构、科学知识数据库，以及必要时使用专有数据。

在完成数据获取后，过程继续从收集的文档中提取信息。这一步骤至关重要，因为它涉及解析复杂且非结构化的 PDF 文件，以恢复其中的实质和结构。下图 2 展示了数据集中一个 PDF 文件的示例。

RAG还是微调？微软出了一份一定领域大模型应用建设过程指南

过程的下一个组成部分是课题和谜底生成。这里的目标是生成有上下文基础的高品质课题，准确反映提取文本的实质。本文步骤采用了一个框架来控制输入和输出的结构组成，从而加强说话模型生成响应的整体效果。

随后，过程为制定的课题生成谜底。此处采用的步骤利用了检索加强生成，结合了检索和生成机制的能力，以创建高品质的谜底。

最后，过程通过 Q&A 对微调模型。优化过程采用了低秩调整（LoRA）等步骤，确保全面理解科学文献的实质和背景，使其成为各个领域或行业的有价值资源。

数据集

研讨中评价了经过微调和检索加强生成的说话模型，使用与背景相关的课题和谜底数据集，这些数据集来源于三个主要的作物生产国：美国、巴西和印度。本文的案例中，以农业作为工业背景。可用的数据在格式和实质上变化很大，涵盖了法规文件、科学报告、农学考试以及知识数据库等各种类型。

本文从美国农业部、州农业和消费者服务机构等公开可获得的在线文档、手册和报告中收集了信息。

可获得的文档包括了有关作物和牲畜管理、疾病和最佳实践的联邦法规和政策信息，品质保证和出口法规，援助计划的详细信息，以及保险和定价指南。收集的数据总计超过 23,000 个 PDF 文件，包含超过 5000 万个 tokens，涵盖了美国 44 个州。研讨者下载并预处理了这些文件，提取了可以用作问答生成过程输入的文本信息。

为了对模型举行基准测试和评价，本文使用了与华盛顿州相关的文档，其中包括 573 个文件，包含超过 200 万个 tokens。如下清单 5 展示了这些文件中的实质示例。

RAG还是微调？微软出了一份一定领域大模型应用建设过程指南