小模型也能玩转RAG！性能仅降1%，存储省75%，边缘设备轻松跑

2025-01-23 05:00

检索增强生成（RAG）虽好，但一直面临着资源消耗大、部署复杂等技术壁垒。近日，香港大学黄超教授团队提出MiniRAG，成功将RAG技术的应用门槛降至1.5B参数规模，实现了算力需求的大幅降低。这一突破性成果不仅为边缘计算设备注入新活力，更开启了基于小模型轻量级RAG的探索。

检索增强生成（RAG）虽好，但一直面临着资源消耗大、部署复杂等技术壁垒。

近日，香港大学黄超教授团队提出MiniRAG，成功将RAG技术的应用门槛降至1.5B参数规模，实现了算力需求的大幅降低。这一突破性成果不仅为边缘计算设备注入新活力，更开启了基于小模型轻量级RAG的探索。

研究团队开发的这套MiniRAG系统采用小模型架构，实现了轻量级的检索增强生成功能。通过本地部署的方式，既降低了资源消耗，又能妥善保护用户隐私。

为验证系统在现实环境下的实用性，团队专门设计了LiHua-World评测数据集，这套数据集包含了个人通讯、信息检索等日常应用场景的模拟数据，为小模型RAG性能评估提供了系统化的测试标准。

模型的性能评测评估了不同框架在迁移至小模型时的适应能力差异：GraphRAG完全无法保持基本功能，LightRAG的表现锐减近半，而MiniRAG即便在轻量化后依然保持了较高水准，最优情况下性能仅下降不到1%，最差情况也仅降低21%左右。值得关注的是，MiniRAG在显著节省存储空间的同时（仅需原来25%），仍能维持如此稳定的输出质量。

MiniRAG架构设计

针对传统RAG系统过度依赖大型语言模型的问题，研究团队提出了新的MiniRAG框架。这一设计摒弃了依赖大模型处理复杂语义理解和多步推理的传统路线，转而构建了一套适配小型语言模型特点的精简架构。

通过深入研究，团队发现小型语言模型虽然在复杂认知任务上存在局限，但具有三个可供充分利用的优势特性：

在模式识别和局部文本处理等基础任务上表现突出
借助结构化信息的引入可显著提升其语义理解能力
通过将复杂任务分解为简单子任务的策略，能够保证系统稳定可靠运行

基于这些发现，研究团队开发了两项核心技术创新：

异构图索引：优化信息组织结构，提升检索精确度
轻量级知识检索：确保高效准确的信息获取

基于小模型的语义检索机制

为突破端侧智能检索的瓶颈，MiniRAG团队构建了一套全新的语义感知框架。这套系统将离散的文本信息与结构化的实体知识融为一体，构建成一张动态感知的智能网络，实现了检索效率的质的飞跃。

文本语义分析：识别并存储文档中的核心要素，包括时间、地点、事件描述和领域概念
文本Chunk融合：维护原始段落的完整性，保留必要的上下文信息

这种设计让系统在检索时可以充分利用结构化特征和原文信息。通过并行匹配策略，既提升了检索的准确度，又有效避免了小模型在语义理解上的局限性，使端侧RAG应用更加实用可靠。

轻量级知识检索架构

端侧RAG应用面临着独特的挑战：计算资源受限且需要保护数据隐私，这使得传统的大模型方案难以落地。基于此，MiniRAG提出了一套轻量化的图式检索方案，通过优化的语义分析和简化的嵌入技术，在保证效果的同时大幅降低了系统开销。检索框架主要包含两个关键设计：

查询语义映射： 系统采用精简的语义分析流程，专注于提取查询中的关键实体和逻辑关系。这种轻量级的处理方式充分发挥了小模型在特定任务上的优势，确保检索过程快速高效。
拓扑增强检索：检索过程分为两个环节，先基于语义特征快速定位核心信息点，再通过异质图结构化的关联分析扩展相关内容，实现准确和全面的信息获取。

这种设计既保证了检索质量，又很好地适应了端侧环境的资源约束。相比传统方案，具有更强的实用性和可扩展性。

模拟真实端侧场景的评测数据集: “假如你是LiHua…”

为了更准确地评估端侧RAG系统的实际表现，团队开发了一个贴近现实的评测数据集。这个名为LiHua-World的数据集模拟了一位普通用户”李华”在移动设备上产生的各类信息记录，包括社交对话、运动日志、休闲娱乐和日程安排等丰富内容。

数据集涵盖了从单一信息查询到多层次关联分析的各类任务。通过还原移动设备的真实使用场景，LiHua-World不仅体现了端侧应用的实际需求，更建立起一个完整的评测体系，为端侧RAG技术的发展和优化提供了可靠的实验基准。

实验评估

团队通过实验设计对MiniRAG系统进行了性能评测，重点关注其在端侧实际应用场景中的表现。评估工作主要从三个层面展开：

整体性能评估 - 团队选取了当前主流的移动端RAG解决方案作为对照组，从检索质量、运行效率和资源占用等维度进行了量化对比，全面衡量系统的综合表现
模块效能分析：深入探索MiniRAG核心组件的性能贡献，包括语义感知异构图索引机制的检索效果、轻量级检索策略的计算开销，以及各模块间的协同效应
实际场景案例研究：实验中团队考察系统处理复杂信息检索和多步推理等高难度任务的能力。通过实际案例的详细分析，直观展示了MiniRAG在真实环境中的应用价值和优势

性能评估结果

实验重点考察了各类RAG系统在适配小型语言模型(SLMs)时的表现差异。测试结果显示，传统方案在这一场景下普遍面临严峻挑战：以LightRAG为例，系统整体效果大幅下滑，性能降幅接近一半。更令人担忧的是，GraphRAG在小模型环境下完全丧失了基本功能。这些现象反映出现有RAG架构过度依赖大模型的计算能力。

相较之下，MiniRAG通过优化的图索引设计和创新的检索机制，有效地解决了这一技术瓶颈。实验数据令人振奋：在迁移至小型语言模型的过程中，系统性能最大降幅仅为两成左右，个别任务类型的性能甚至基本保持不变（降幅不足1%）。这充分证明了MiniRAG在轻量化场景下的独特优势和较强适应能力。

存储效率评测

经过详细的性能测试，MiniRAG在资源优化方面展现出显著优势。对比使用gpt-4-mini的LightRAG基准系统，团队的方案仅占用四分之一的存储空间就达到了相近的性能指标。这种显著的存储压缩（降低约75%）并未影响系统的检索质量，说明了团队在架构设计上的价值。

消融实验分析

团队制定了一套系统化的评测方案，旨在深入分析各核心模块对整体性能的具体贡献。评测分为两个主要部分：

首先是索引机制测试，我们将系统中的异构图索引替换为基于语义描述的传统方案（简记为-I实验），这类方案与现有主流系统采用相似的处理思路，主要通过模型的语义理解来构建实体和关系的描述表示。

小模型也能玩转RAG！性能仅降1%，存储省75%，边缘设备轻松跑

实验结果表明：

小模型也能玩转RAG！性能仅降1%，存储省75%，边缘设备轻松跑

实际案例分析

以下通过一个富有挑战性的餐厅识别场景，展示MiniRAG如何在实际应用中充分发挥其技术优势，尤其在处理多维度信息检索方面的出色表现。

挑战：复杂查询解析的困境

研究团队选取了一个具有挑战性的测试案例，查询内容为：Wolfgang和Li Hua为庆祝Wolfgang升职而共进晚餐的那家意大利餐厅叫什么名字？这一查询涉及多重约束条件，要求系统能从在线聊天数据中准确识别特定意大利餐厅及其相关上下文。尽管LightRAG采用了phi-3.5-mini-instruct模型，但受限于小型语言模型的固有局限性，特别是在提取high-level信息和处理图索引噪声方面的不足，导致其检索效果不够理想。

MiniRAG的解决方案

MiniRAG通过其独特的查询引导推理路径发现机制成功应对了上述挑战。系统利用异构图索引结构，首先预测答案类型（如”社交互动”或”地点”），然后通过策略性分解查询要素（专注于”意大利场所”和”餐厅”语境），结合目标实体匹配，实现了精确且具有上下文关联的知识检索。这种结构化推理方法使MiniRAG能够精确导航知识空间，最终成功定位目标餐厅——Venedia Grancaffe。

结论

MiniRAG是一款轻量级的检索增强生成系统，成功解决了小型语言模型(SLMs)在传统RAG框架中的应用限制。该系统采用创新的异构图索引架构和轻量级启发式检索机制，有效整合了文本与图式方法的优势，大幅降低了对模型能力的依赖要求。实验结果表明，基于SLMs的MiniRAG性能可与大语言模型方案媲美。

为促进边缘设备RAG技术的发展，研究团队同时发布了首个专门的评估基准数据集，重点覆盖个人通信和多约束查询等实际应用场景。这一研究不仅代表着端侧RAG系统的重要突破，也为注重隐私保护和资源效率的边缘AI应用开创了新的可能。

项目链接: https://github.com/HKUDS/MiniRAG论文链接: https://arxiv.org/abs/2501.06713实验室主页: https://github.com/HKUDS

腾讯科技Hi Tech Day暨2023数字开物大会：智能涌现将通往无数的未来

腾讯科技讯 12月14日，以“智能涌现数开万物”为主题的腾讯科技Hi Tech Day暨2023数字开物大会在北京国家会议中心召开，腾讯科技邀请知名院士、知名经济学家、知名大学教授、研究院院长、产业大咖、互联网大厂高管、知名科技领域头部企业高管、产业数字化转型企业高管等共话AI趋势。大会开场，腾讯新闻运营总经理黄晨霞发表主办方致辞。她回顾了2023年新技术的涌现发展，并提出如何让这些新技术打开真正的产业变革之门，为人类社会创造更多的福祉的思考。黄晨霞表示，在应用落地的路上，我们要厘清大模型的基础还有哪些卡点、AI

12/16/2023 7:36:00 PM

新闻助手

中国工程院院士邬贺铨：AI 大模型仍需“大力出奇迹”、提升算力枢纽利用率

据中新社报道，中国工程院院士邬贺铨 19 日在 2024 北京人工智能生态大会上表示，人工智能是新质生产力的引擎，大模型的发展仍然需要“大力出奇迹”，多措并举提升对物理世界的模拟能力。算力、数据等是促进人工智能发展的关键要素。据AI在线此前报道，中国信通院 7 月数据显示，截至 2023 年，全国在用算力中心机架总规模已超过 810 万标准机架，算力总规模达到 230EFLOPS，位居全球第二。邬贺铨院士指出，中国已建的算力枢纽的利用率还有较大提升空间，通过集约优化可解决目前对算力的需求。中国具有超大规模市场、海量

8/20/2024 8:56:12 AM

沛霖（实习）

曝DeepSeek让Llama4未发布已落后！小扎坐不住了：2025预算4000亿起步，年底AI算力将达130万卡

Meta这次真的坐不住了，计划在AI上继续加码！匿名员工爆料，黑马DeepSeek的出现，让Llama 4还未发布就已经落后，Meta慌了。就在这一消息沸沸扬扬时，小扎放出消息，2025年继续扩大AI投资。

1/26/2025 9:00:00 AM

量子位

资讯热榜

企业级模型推理部署工具vllm使用指南 - 部署最新deepseek-v3-0324模型全能且实用！实战测评谷歌最新模型Gemini 2.5 Pro 大模型部署工具 Ollama 使用指南：技巧与问题解决全攻略基于 DeepSeek GRPO 的 1.5B Rust 代码生成模型训练实战模态编码器|CLIP详细解读 DeepSeek R1 vs OpenAI O3 vs Gemini 2 Pro—谁最适合做客服主管的AI 50组多风格提示词，全面测评Midjourney V7生图效果！斯坦福2025 AI指数出炉！中美AI对决差距仅剩0.3%，DeepSeek领衔

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习 GPT 开源微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D AI设计 Anthropic 机器学习 GPU 开发者场景华为预测伟达 Transformer 百度深度学习模态苹果 AI视频驾驶文本搜索 xAI 人形机器人 Copilot 神器推荐 LLaMA 大语言模型具身智能字节跳动 Claude 算力安全应用视频生成科技视觉干货合集亚马逊 2024 AGI 特斯拉 DeepMind 架构

顶部

小模型也能玩转RAG！性能仅降1%，存储省75%，边缘设备轻松跑

MiniRAG架构设计

基于小模型的语义检索机制

轻量级知识检索架构

模拟真实端侧场景的评测数据集: “假如你是LiHua…”

实验评估

性能评估结果

消融实验分析

实际案例分析

结论

相关资讯

腾讯科技Hi Tech Day暨2023数字开物大会：智能涌现将通往无数的未来

中国工程院院士邬贺铨：AI 大模型仍需“大力出奇迹”、提升算力枢纽利用率

曝DeepSeek让Llama4未发布已落后！小扎坐不住了：2025预算4000亿起步，年底AI算力将达130万卡