FastRAG：半结构化数据的检索增强生成

2025-01-23 04:23

本文介绍了FastRAG，一种针对半结构化数据的新型RAG方法。 FastRAG采用模式学习和脚本学习来提取和结构化数据，而无需将整个数据源提交给LLM。它将文本搜索与知识图谱（KG）查询相结合，以提高在问答任务中检索上下文丰富信息的准确性。

本文介绍了FastRAG，一种针对半结构化数据的新型RAG方法。FastRAG采用模式学习和脚本学习来提取和结构化数据，而无需将整个数据源提交给LLM。它将文本搜索与知识图谱（KG）查询相结合，以提高在问答任务中检索上下文丰富信息的准确性。从评估结果来看，FastRAG在提供准确问答的同时，与GraphRAG相比，时间上提高了90%，成本上提高了85%。

FastRAG提出的背景和动机

FastRAG（Fast Retrieval-Augmented Generation）的提出主要基于以下几个动机和背景：

1. 网络数据处理的复杂性和挑战

随着网络规模的扩大，网络数据的多样性和复杂性显著增加。网络管理任务需要高效处理和理解半结构化数据，如日志和配置文件。传统的网络数据处理工具虽然在一定程度上提供了实用性，但在全面提取和利用嵌入在半结构化数据中的信息方面存在不足。此外，从不同供应商关联这些数据由于网络服务的分散实现而变得更加复杂。

2. 现有RAG方法的局限性

尽管大型语言模型（LLM）和检索增强生成（RAG）技术在处理和理解自然语言方面展示了巨大潜力，但现有的RAG方法如VectorRAG和GraphRAG在处理半结构化技术数据时存在一些局限性：

VectorRAG：基于语义相似性从文本文档中提供上下文检索，但在处理网络数据的领域特定关键词时表现不佳，因为这些关键词在不同上下文中可能具有不同含义。
GraphRAG：通过利用知识图谱（KG）组织从源文档中提取的信息，但在提供有用答案方面存在不足，特别是在查询需要精确匹配的特定值（如名称或类型）时。
HybridRAG：结合了VectorRAG和GraphRAG的优势，提高了响应的准确性和上下文相关性，但仍继承了其基础方法的局限性。

3. 处理时间和成本的挑战

现有的RAG系统依赖LLM来提取结构化信息，通常需要将源文档分成小块并逐块处理，这导致了处理时间和成本的增加。特别是在处理大规模和频繁变化的网络数据时，这种逐块处理的方法效率低下且成本高昂。

4. 信息检索的准确性和效率

在网络管理中，准确和高效的信息检索至关重要。现有的RAG方法在处理半结构化技术数据时，往往无法充分利用数据的隐含信息，导致检索效率低下和准确性不足。

5. 模式和脚本学习的必要性

为了解决上述问题，FastRAG引入了模式学习和脚本学习技术。通过模式学习，系统能够自动识别和结构化源数据中的实体类型及其属性，而无需将整个数据源提交给LLM。脚本学习则进一步生成解析函数，以高效提取和处理数据。

6. 结合文本搜索和KG查询

FastRAG将文本搜索与知识图谱（KG）查询相结合，以提高在问答任务中检索上下文丰富信息的准确性。文本搜索基于精确的措辞或结构进行匹配，而KG查询则利用图数据库的结构化信息，两者结合可以更全面地回答复杂查询。

7. 成本和时间的优化

FastRAG通过生成JSON模式和Python代码进行数据结构化和解析，避免了通过LLM处理所有源数据的昂贵过程。这种方法显著减少了处理时间和成本，特别是在处理大规模和频繁变化的网络数据时。

FastRAG设计架构

FastRAG（Fast Retrieval-Augmented Generation）的设计架构旨在高效处理和检索半结构化网络数据，通过结合模式学习、脚本学习和信息检索技术，优化数据处理和问答任务的效率和准确性。

1. 总体架构概述

FastRAG的总体架构如上图所示，主要包括以下几个关键组件：

分块采样（Chunk Sampling）：选择代表性的数据块进行处理，以减少处理时间和成本。
模式学习（Schema Learning）：自动识别和结构化源数据中的实体类型及其属性。
脚本学习（Script Learning）：生成解析函数，以高效提取和处理数据。
信息检索（Information Retrieval）：结合文本搜索和知识图谱（KG）查询，提高问答任务的准确性。

2. 分块采样（Chunk Sampling）

分块采样是FastRAG的第一步，旨在选择代表性的数据块进行处理，以减少处理时间和成本。该过程涉及两个关键程序：关键词提取和块选择。

2.1 关键词提取

关键词提取从源数据中识别最有意义的术语。该过程包括以下步骤：

文本预处理：去除标点符号并将内容标记化为单个单词。
行分割：将文本分成行，并根据单词频率创建矩阵表示。
K-means聚类：根据术语频率模式的相似性将行分组为nc个簇。
关键词选择：在每个簇中选择最接近质心的nt个术语作为关键词。

2.2 样本选择

样本选择算法选择包含提取关键词的完整集合的最小块集。该过程包括以下步骤：

预处理：只保留提取的关键词。
TF-IDF向量计算：计算每个块的术语频率-逆文档频率（TF-IDF）向量。
香农熵计算：计算每个块的香农熵以衡量其信息多样性。
迭代选择：迭代选择块子集以最大化术语覆盖率，直到达到所需的覆盖率阈值。

3. 模式学习（Schema Learning）

模式学习是FastRAG的核心组件之一，旨在自动识别和结构化源数据中的实体类型及其属性。该过程包括以下步骤：

3.1 模式提取

初始模式生成：从第一个样本块开始，LLM被提示识别并将实体类型和属性结构化为JSON模式。
迭代细化：通过提交新块给LLM，迭代地细化之前的JSON模式。
验证和修正：每次提示后，验证生成的JSON模式是否良构，如有错误则进行修正。

3.2 模式类型

从最终模式中提取两种类型的对象：

步骤1模式：仅包括第1级实体类型（部分），每个实体类型包括描述和源数据行。
步骤2模式：每个部分与一个数组相关联，数组中的对象对应于该部分的完整模式。

4. 脚本学习（Script Learning）

脚本学习是FastRAG的另一个核心组件，旨在生成解析函数，以高效提取和处理数据。该过程包括以下步骤：

4.1 脚本生成

初始函数生成：从第一个样本块开始，LLM被提示生成解析函数。
迭代细化：通过提交新样本块给LLM，迭代地细化之前的函数代码。
验证和修正：每次提示后，验证生成的代码是否语法和功能正确，如有错误则进行修正。

4.2 独立处理

步骤1解析：将源数据中的每一行映射到其对应的部分，并将其分成固定大小的块。
步骤2解析：为每个部分生成特定的解析函数，并使用相应的解析函数处理每个部分内的数据。

5. 信息检索（Information Retrieval）

信息检索是FastRAG的最终组件，旨在结合文本搜索和知识图谱（KG）查询，提高问答任务的准确性。该过程包括以下步骤：

5.1 KG创建

实体插入：在JSON对象中识别的每个实体作为节点插入KG中，实体类型作为节点的标签。
属性分配：实体的简单类型属性直接分配为节点的属性，而本身是对象的属性则作为子节点插入。
输入数据节点：对于每个实体的input_data属性中的每一行，创建相应的节点并链接到父实体节点。

5.2 检索策略

定义并测试了几种检索策略以与KG交互：

KG查询（图）：使用提示向LLM提供KG的模式，生成语法正确的GQL语句，执行并解释结果。
文本搜索（文本）：使用提示向LLM提供文本搜索功能的示例，生成仅使用文本搜索功能的GQL语句，执行并解释结果。
组合查询（组合）：为给定的输入查询并行执行KG查询和文本搜索提示，将结果提供给LLM合成最终答案。
混合查询（混合）：结合KG查询和文本搜索的能力，生成可以利用两种方法中任何相关功能的GQL语句。

总结

FastRAG的设计架构通过分块采样、模式学习、脚本学习和信息检索等关键组件，实现了高效处理和检索半结构化网络数据的目标。通过自动识别和结构化源数据中的实体类型及其属性，生成解析函数，并结合文本搜索和KG查询，FastRAG显著提高了数据处理的效率和问答任务的准确性，同时减少了处理时间和成本。

Meta-Chunking: 通过逻辑感知学习高效的文本分段

本文是由人大提出的，旨在解决在检索增强生成（RAG）系统中，文本分段这一关键方面被忽视的问题。具体来说，传统文本分段方法（如基于规则或语义相似性）在捕捉句子间深层语言逻辑联系方面存在不足，导致在知识密集型任务（如开放域问答）中的性能受到影响。本文通过引入Meta-Chunking的概念及其两种实现策略（边际采样分段和困惑度分段），解决了以下几个关键问题：逻辑连贯性问题：问题：传统文本分段方法往往基于规则或语义相似性，难以捕捉句子间的深层逻辑联系（如因果、过渡、并行和渐进关系）。

1/23/2025 4:13:35 PM

【RAG】RAG范式演进及Agentic-RAG总结综述

RAG的核心思想是通过实时数据检索弥补这一缺陷——在生成答案前，系统先从外部数据源（如数据库、API或互联网）动态检索相关上下文，再结合LLM的知识生成更精准、实时的响应。但它们通常在处理动态、多步推理任务、适应性和复杂工作流的协调方面仍然存在不足。 rag三大组件检索器（Retriever）：从外部数据源（如向量数据库、知识图谱或网页）中搜索与查询相关的信息。

2/6/2025 1:50:06 PM

余俊晖

使用 DeepSeek R1 和 Ollama 搭建一个 RAG 系统（包含完整代码）

你有没有想过，能不能像跟人聊天一样，直接问 PDF 文件或技术手册问题？比如你有一本很厚的说明书，不想一页页翻，只想问它：“这个功能怎么用？ ”或者“这个参数是什么意思？

2/10/2025 11:27:37 AM

wayn

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用 OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片本地部署DeepSeek+DiFy平台构建智能体应用 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o OPPO 小布助手网页版上线，接入满血版 DeepSeek

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果深度学习 AI视频模态人形机器人 xAI 驾驶字节跳动文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型

顶部

FastRAG：半结构化数据的检索增强生成

FastRAG提出的背景和动机

1. 网络数据处理的复杂性和挑战

2. 现有RAG方法的局限性

3. 处理时间和成本的挑战

4. 信息检索的准确性和效率

5. 模式和脚本学习的必要性

6. 结合文本搜索和KG查询

7. 成本和时间的优化

FastRAG设计架构

1. 总体架构概述

2. 分块采样（Chunk Sampling）

2.1 关键词提取

2.2 样本选择

3. 模式学习（Schema Learning）

3.1 模式提取

3.2 模式类型

4. 脚本学习（Script Learning）

4.1 脚本生成

4.2 独立处理

5. 信息检索（Information Retrieval）

5.1 KG创建

5.2 检索策略

总结

相关资讯

Meta-Chunking: 通过逻辑感知学习高效的文本分段

【RAG】RAG范式演进及Agentic-RAG总结综述

使用 DeepSeek R1 和 Ollama 搭建一个 RAG 系统（包含完整代码）