RAG

一文读懂 Agentic RAG 技术点滴

大型语言模型（Large Language Models, LLMs）彻底改变了我们与信息的交互方式。然而，LLMs 完全依赖内部知识的局限性，常常限制了其在处理复杂问题时的准确性和深度。正是在这一背景下，检索增强生成（Retrieval-Augmented Generation, RAG）应运而生。

Cloudflare发布AutoRAG：全托管RAG系统简化AI上下文感知开发

RAG实战|向量数据库LanceDB指南

LanceDB介绍LanceDB是一个开源的用 Rust 实现的向量数据库（），它的主要特点是：提供单机服务，可以直接嵌入到应用程序中支持多种向量索引算法，包括Flat、HNSW、IVF等。支持全文检索，包括BM25、TF-IDF等。支持多种向量相似度算法，包括Cosine、L2等。

RAG回答准确率暴涨300%！用Coze工作流进行数据结构化（附完整提示词）

前言在生成式人工智能（Generative AI）快速发展的当下，大语言模型（LLMs）的幻觉问题始终是制约其落地应用的关键瓶颈。检索增强生成（RAG）技术通过引入外部知识库，将动态检索与生成能力结合，为解决这一难题提供了重要思路。然而，RAG系统的核心性能——数据召回率，高度依赖于底层数据的质量与组织形式。

大语言模型具有显著的能力，但它们常常因为仅依赖于其参数化知识而产生包含事实错误的响应。传统的检索增强生成（Retrieval-Augmented Generation, RAG）方法虽然能减少这些问题，但是存在无差别地检索和结合固定数量的段落，没有考虑检索是否必要或检索结果的相关性，都会削弱语言模型的灵活性，或者导致无益的响应生成。现在LLM RAG（检索增强）的技术方案已成为LLM在众多应用场景的主流。

QA方法论在RAG中的应用

QA问答模型是一种自然语言处理（NLP）技术，旨在根据输入的问题自动提供准确的答案。一、基本原理数据预处理首先需要对大量的文本数据进行收集、清洗等操作。这些文本数据可以来自各种来源，如百科知识、新闻文章、学术文献等。

大模型不再是路痴！空间推理的答案是RAG：旅游规划、附近推荐全解锁

近年来，大型语言模型（LLMs）的进展已经在机器学习（ML）的许多领域带来了变革，特别是在理解和生成类人文本方面，激发了人们通过直接从LLMs中提取空间知识来弥合空间问答与自然语言之间的差距，研究成果涵盖了广泛的应用，包括地理百科全书问答、地理定位和自动高精度地图生成等。然而，当涉及到空间推理任务时，LLMs的表现却显得力不从心，甚至在处理基本的空间任务时也遇到困难，例如地理解析和理解相对空间关系。这种差距在处理现实世界的空间推理任务时尤为明显，例如图1中所示的场景：图1 现实世界中空间推理问题示例。

从裁员到年薪百万：程序员靠RAG技术逆袭的“核心密码”

1.前言作为一名从业七年的程序员，最近听到很多程序员朋友都喜提了n 1裁员大礼包。上周与老友聚会时，大家纷纷诉说着各自最近的遭遇，聚会气氛一度十分沉重。老Z感叹：“公司决定将部分业务外包，结果我被列入了裁员名单。

RAG检索不过关？试试这些优化策略，精准度飙升！

近来，RAG成了大语言模型的“救命稻草”，可让大语言模型回答更准确、更靠谱。可问题来了，很多 RAG 应用的检索系统还是有点“笨”：要么漏掉关键信息，要么抓回一堆无关紧要的“噪声”，搞得最终答案质量参差不齐。那么，我们该怎么优化 RAG 的检索算法，让它既精准又高效呢？

RAG检索全攻略：Embedding与Rerank模型的终极指南

在构建基于检索增强生成（RAG）的系统时，Embedding Model和Rerank Model扮演着至关重要的角色。比如你正在搭建一个智能搜索引擎，Embedding Model就像是帮你快速找到相关书籍的“图书管理员”，而Rerank Model则像是一位经验丰富的“资深书评人”，负责从一堆书里精准挑选出最符合你需求的那几本。两者配合，就像一对完美搭档，确保RAG系统既能找到大量信息，又能精准提炼出最关键的内容。

腾讯云宣布上线DeepSeek最新版V3模型API接口

3月25日晚，腾讯云宣布率先上线DeepSeek-V3-0324版本模型的API接口，企业和开发者可以通过腾讯云直接调用这一最新版模型，获得稳定且优质的服务。同时，腾讯云旗下大模型知识引擎也接入了新版DeepSeek-V3模型，通过平台内置的RAG（Retrieval-Augmented Generation）和工作流能力，用户能够快速搭建专属的AI应用。腾讯云为用户提供了两种使用方式:一是直接在腾讯云官网调用API接口，二是基于大模型知识引擎内置的V3新模型快速搭建应用。

RAG（七）Chain-of-Note：笔记链让检索增强型语言模型更强大！

现有的检索增强型语言模型（Retrieval-Augmented Language Models, RALMs）在处理外部知识时存在一定的局限性。这些模型有时会因为检索到不相关或不可靠的信息而产生误导性的回答，或者在面对检索信息和模型内在知识的干扰时，无法正确选择使用哪一种知识。此外，在检索信息不足或完全不存在的情况下，标准的RALMs可能会尝试生成一个答案，即使它们并不具备足够的信息来准确作答。

三种RAG部署方案：自购GPU硬件 vs 大模型一体机 vs 云端GPU

春节以后这一个半月，算了下我前后也做了 20 的企业知识库落地咨询，其中无论是线上还是线下，被问到最多的一个问题是：要快速落地本地部署的知识库，应该购买什么硬件？要回答这个问题，其实需要明确很多前置定语，自购 GPU 硬件、大模型一体机、以及选择云端 GPU 都有各自适用的情形。这篇试图说清楚三种部署方式的主要特点对比，并在文末给些选择建议参考。

基于代理知识蒸馏技术克服文档提取和RAG策略失败问题

译者 | 朱先忠审校 | 重楼简介当下，许多生成式AI应用场景仍然围绕检索增强生成（RAG）展开，但始终未能满足用户的期望。尽管对RAG改进的研究越来越多，甚至在流程中添加了代理技术，但许多解决方案仍然无法返回详尽的结果，遗漏了文档中很少提及的关键信息，需要多次搜索迭代，并且通常难以协调多个文档中的关键主题。最糟糕的是，许多实现方案仍然依赖于将尽可能多的“相关”信息与详细的系统和用户提示一起塞入模型的上下文窗口。

RAG（六）大语言模型应用中的分块策略详解

1、分块在不同应用场景的作用语义搜索在语义搜索中，索引一组文档，每个文档包含特定主题的有价值信息。通过应用有效的分块策略，可以确保搜索结果准确捕捉用户查询的核心。分块的大小和方式直接影响搜索结果的准确性和相关性：分块过小：可能会丢失上下文信息，导致搜索结果无法准确理解用户查询的意图。

RAG（五）BGE-M3，最流行的开源text embedding模型

项目地址： embedding？ Text Embedding 是一种将文本数据映射到高维向量空间的技术，这些向量能够捕捉文本的语义信息。通过将文本嵌入到向量空间中，我们可以利用向量之间的距离或相似性来衡量文本之间的语义相关性。

详解RAG应用开发幻觉检测利器LettuceDetect

译者 | 朱先忠审校 | 重楼简介最近，我们团队推出了LettuceDetect框架，这是一款用于检索增强生成（RAG）开发管道的轻量级幻觉检测器。它是一种基于ModernBERT模型构建的基于编码器的模型，根据MIT许可证发布，带有现成的Python包和预训练模型。是什么：LettuceDetect是一个标记级检测器，可标记LLM回答中不受支持的片段。

RAG（四）Adaptive Retrieval --语言模型的信任边界，参数与非参数记忆的有效性研究

大语言模型（LMs）在许多自然语言处理任务上表现优异，但它们在记忆和回忆不太常见或不流行的事实知识方面存在明显的局限性。并且，当涉及到长尾实体（即那些在网络上讨论较少、出现频率较低的实体）的问题时，LMs 的性能显著下降，并且增加模型规模并不能有效地解决这一问题。此外，LMs 对于自身知识边界的认识有限，有时会产生幻觉，即生成看似合理但实际上错误的信息。