RAG

三种RAG部署方案：自购GPU硬件 vs 大模型一体机 vs 云端GPU

春节以后这一个半月，算了下我前后也做了 20 的企业知识库落地咨询，其中无论是线上还是线下，被问到最多的一个问题是：要快速落地本地部署的知识库，应该购买什么硬件？要回答这个问题，其实需要明确很多前置定语，自购 GPU 硬件、大模型一体机、以及选择云端 GPU 都有各自适用的情形。这篇试图说清楚三种部署方式的主要特点对比，并在文末给些选择建议参考。

3/24/2025 1:17:11 PM

韦东东

基于代理知识蒸馏技术克服文档提取和RAG策略失败问题

译者 | 朱先忠审校 | 重楼简介当下，许多生成式AI应用场景仍然围绕检索增强生成（RAG）展开，但始终未能满足用户的期望。尽管对RAG改进的研究越来越多，甚至在流程中添加了代理技术，但许多解决方案仍然无法返回详尽的结果，遗漏了文档中很少提及的关键信息，需要多次搜索迭代，并且通常难以协调多个文档中的关键主题。最糟糕的是，许多实现方案仍然依赖于将尽可能多的“相关”信息与详细的系统和用户提示一起塞入模型的上下文窗口。

3/24/2025 8:20:39 AM

朱先忠

RAG（六）大语言模型应用中的分块策略详解

1、分块在不同应用场景的作用语义搜索在语义搜索中，索引一组文档，每个文档包含特定主题的有价值信息。通过应用有效的分块策略，可以确保搜索结果准确捕捉用户查询的核心。分块的大小和方式直接影响搜索结果的准确性和相关性：分块过小：可能会丢失上下文信息，导致搜索结果无法准确理解用户查询的意图。

3/21/2025 2:34:17 PM

Goldma

RAG（五）BGE-M3，最流行的开源text embedding模型

项目地址： embedding？ Text Embedding 是一种将文本数据映射到高维向量空间的技术，这些向量能够捕捉文本的语义信息。通过将文本嵌入到向量空间中，我们可以利用向量之间的距离或相似性来衡量文本之间的语义相关性。

3/21/2025 7:00:00 AM

Glodma

详解RAG应用开发幻觉检测利器LettuceDetect

译者 | 朱先忠审校 | 重楼简介最近，我们团队推出了LettuceDetect框架，这是一款用于检索增强生成（RAG）开发管道的轻量级幻觉检测器。它是一种基于ModernBERT模型构建的基于编码器的模型，根据MIT许可证发布，带有现成的Python包和预训练模型。是什么：LettuceDetect是一个标记级检测器，可标记LLM回答中不受支持的片段。

3/19/2025 8:43:17 AM

朱先忠

RAG（四）Adaptive Retrieval --语言模型的信任边界，参数与非参数记忆的有效性研究

大语言模型（LMs）在许多自然语言处理任务上表现优异，但它们在记忆和回忆不太常见或不流行的事实知识方面存在明显的局限性。并且，当涉及到长尾实体（即那些在网络上讨论较少、出现频率较低的实体）的问题时，LMs 的性能显著下降，并且增加模型规模并不能有效地解决这一问题。此外，LMs 对于自身知识边界的认识有限，有时会产生幻觉，即生成看似合理但实际上错误的信息。

3/17/2025 12:52:44 PM

Glodma

RAG（三）GraphRAG进阶：GraphReader-- 基于图的Agent，让大模型“读懂”长文本

上一篇论文介绍了GraphRAG，今天来看一篇算是其进阶版的方法--GraphReader。对于其研究动机，简单来说，LLMs具有强大的规划和反思能力，但在解决复杂任务时，如函数调用或知识图谱问答（KGQA），以及面对需要多次推理步骤的问题时，仍然面临困难。特别是当涉及到长文本或多文档的处理时，现有的方法往往难以充分利用这些模型的能力来捕捉全局信息，并有效地进行决策。

3/13/2025 12:24:34 PM

Glodma

RAGFlow自动化脚本套件：自定义解析+回答质量评估+参数自动调优

最近 MCP（大模型上下文协议）比较火，花了点时间研究了下和 RAG 的协作架构，后续整理出心得后再发出。言归正传，之前文章里详细介绍了 RAGFlow 的 Python api 用法，今天结合几篇法律法规文档来给大家做个简单演示，抛砖引玉。这篇主要介绍三个脚本示例，分别是：数据处理与系统配置，系统测试，参数优化脚本。

3/13/2025 11:29:03 AM

韦东东

手搓RAG新增功能：递归检索与迭代查询+重回成熟框架API

在上那篇提到的我手搓的那个 RAG 项目新增功能中，漏掉了递归检索与迭代查询，这篇补上（源码见知识星球）。经过初步调试对召回效果有明显提升，这种方法解决了传统 RAG 的几个关键问题：处理复杂多步骤问题：通过多次迭代，分解复杂问题信息不足的补充：当初始检索结果不足以回答问题时，自动生成补充查询多角度信息收集：能够从不同角度收集相关信息1、递归检索具体实现递归检索函数（recursive_retrieval）（支持最多三次迭代查询）每次迭代使用混合检索（向量检索 BM25）获取信息使用 LLM 分析当前检索结果，判断是否需要进一步查询如果需要，LLM 会生成新的查询问题，用于下一轮检索换句话说，递归检索的工作原理可以理解为"先检索-后思考-再检索"的过程，模拟了人解决问题的方式：先获取一些信息，思考下是否足够，如果不够则继续查找更多相关信息。总之，好的结果不是一蹴而就的。

3/10/2025 9:20:00 AM

韦东东

现在的AI Agent还是这么差！

编辑 | 言征出品 | 51CTO技术栈（微信号：blog51cto）背景是这样的。前几天，我发现我的XX激光雷达出了问题。本来我靠它来为电影摄像机增加自动对焦和自动跟踪功能，如果没有这项功能，我会很难拍摄到我需要的画面。

3/5/2025 6:45:26 PM

言征

没有捷径：RAG入门不推荐直接使用成熟框架

春节期间我在 Github 开源的 RAG 项目目前已经攒了 134 个 Star，盲猜可能也是因为最开始用的就是 Ollama 本地部署 DeepSeek-r1:7b 的方案，年后当本地部署知识库和 deepseek火了起来之后，被动蹭了一波流量。 1、为什么重复造轮子？但是，在过去的一个月时间里也收到了很多网友的私信，询问关于为什么市面上已经有了类似 AnythingLLM、Cherry Studio、Dify、RAGFlow 等成熟的开源框架，还要重复造轮子去编一个不是很好用的 RAG 项目。

3/4/2025 11:01:00 AM

韦东东

企业实施RAG过程中：常见误解与澄清，内含项目升级预告

春节之后的一个月的时间内，微信和小红书上数了下大概有 150 多个过来咨询 RAG 在企业落地的网友，一路聊下来按照对方的诉求大概分为三类，第一种是最多的就是年后返工公司领导让落地 RAG，但是一时没有头绪的过来咨询的；第二种是看过我公众号上的相关案例后，想外包给我来做具体实施的；第三种有点出乎意料的是，相关的媒体来交流行业观察的。第一种类型也是最开始比较多的，最初我也是问啥答啥，但是大概聊了五六个之后发现情况有点不对，大部分其实是比较基础的问题，或者我认为问大模型能比问我更快扫盲的，再加上后来确实肉眼可见的人在变多，我索性和每个人说如果是咨询的话 200 块每小时（现在涨到了 500），这样就大部分人就索性不问了，虽说前后也是有十几个人很干脆的问完问题后直接发了红包，不过不得不说收费确实是个很好的互相筛选。以上是碎碎念，言归正传，这篇给大家介绍下我目前几个项目实践踩坑过程中总结出的些经验。

3/4/2025 10:53:59 AM

韦东东

一文读懂大模型 RAG：检索、增强与生成的技术详解

大模型（Large Language Model，LLM）的浪潮已经席卷了几乎各行业，但当涉及到专业场景或行业细分领域时，通用大模型往往面临专业知识不足的问题。相对于成本昂贵的“Post-Training”或“Supervised Fine-Tuning”（监督微调，SFT），基于RAG的技术方案成为了一种更优选择。本文笔者将从RAG所解决的问题及模拟场景入手，详细总结相关技术细节，与大家分享~一、初识：RAG所解决的问题及模拟场景1.

3/4/2025 9:10:00 AM

小喵学AI

阿里通义实验室开源视觉文档RAG系统ViDoRAG，准确率达79.4%

近日，阿里巴巴通义实验室宣布开源其最新研发成果——ViDoRAG，这是一款专为视觉文档理解设计的检索增强生成（RAG）系统。 ViDoRAG在GPT-4o模型上的测试显示，其准确率达到了令人瞩目的79.4%，相较传统RAG系统提升了10%以上。这一突破标志着视觉文档处理领域迈出了重要一步，为人工智能在复杂文档理解上的应用提供了新的可能性。

3/3/2025 4:29:00 PM

AI在线

RAG（一）RAG开山之作：知识密集型NLP任务的“新范式”

在AI应用爆发的时代，RAG（Retrieval-Augmented Generation，检索增强生成）技术正逐渐成为AI 2.0时代的“杀手级”应用。它通过将信息检索与文本生成相结合，突破了传统生成模型在知识覆盖和回答准确性上的瓶颈。不仅提升了模型的性能和可靠性，还降低了成本，增强了可解释性。

3/3/2025 11:41:11 AM

Glodma

绕过 RAG 实时检索瓶颈，缓存增强生成（CAG）如何助力性能突破？

检索增强生成（RAG）作为一种通过整合外部知识源来增强语言模型的强大方法而备受瞩目。不过，这种方法也带来了一些挑战，比如检索过程的延迟、文档挑选时可能出现的误差，以及系统复杂度的增加。随着能够处理更长上下文的大语言模型（LLMs）的兴起，缓存增强生成（CAG）技术应运而生，它避免了实时的信息检索。

2/27/2025 10:55:44 AM

追求卓越的

GitHub 上流行的 RAG 框架介绍及优缺点分析

随着大型语言模型在自然语言处理中的广泛应用，其固有的知识截止和“幻觉”问题逐渐暴露。为了解决这些问题，检索增强生成（Retrieval-Augmented Generation，简称 RAG）技术应运而生。 RAG 通过将外部知识库中的相关信息检索出来，并将这些信息融合到生成过程的上下文中，从而大幅提高了回答的准确性、时效性以及上下文一致性。

2/27/2025 9:00:00 AM

利用RAG整合代码私有仓库实现私有化代码提示的流程

RAG流程RAG（Retrieval-Augmented Generation，检索增强生成）是一种结合信息检索与生成模型的技术，旨在通过外部知识库增强生成内容的准确性和相关性。 1. 数据预处理与索引构建（离线阶段）目标：构建可供检索的知识库。

2/26/2025 12:21:08 PM

demo123567

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用 OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o 本地部署DeepSeek+DiFy平台构建智能体应用 OPPO 小布助手网页版上线，接入满血版 DeepSeek

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果深度学习 AI视频模态人形机器人 xAI 驾驶字节跳动文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型

RAG

三种RAG部署方案：自购GPU硬件 vs 大模型一体机 vs 云端GPU

基于代理知识蒸馏技术克服文档提取和RAG策略失败问题

RAG（六）大语言模型应用中的分块策略详解

RAG（五）BGE-M3，最流行的开源text embedding模型

详解RAG应用开发幻觉检测利器LettuceDetect​

RAG（四）Adaptive Retrieval --语言模型的信任边界，参数与非参数记忆的有效性研究

RAG（三）GraphRAG进阶：GraphReader-- 基于图的Agent，让大模型“读懂”长文本

RAGFlow自动化脚本套件：自定义解析+回答质量评估+参数自动调优

手搓RAG新增功能：递归检索与迭代查询+重回成熟框架API

现在的AI Agent还是这么差！

没有捷径：RAG入门不推荐直接使用成熟框架

企业实施RAG过程中：常见误解与澄清，内含项目升级预告

一文读懂大模型 RAG：检索、增强与生成的技术详解

阿里通义实验室开源视觉文档RAG系统ViDoRAG，准确率达79.4%

RAG（一）RAG开山之作：知识密集型NLP任务的“新范式”

绕过 RAG 实时检索瓶颈，缓存增强生成（CAG）如何助力性能突破？

GitHub 上流行的 RAG 框架介绍及优缺点分析

利用RAG整合代码私有仓库实现私有化代码提示的流程

详解RAG应用开发幻觉检测利器LettuceDetect