RAG（七）Chain-of-Note：笔记链让检索增强型语言模型更强大！

2025-03-25 10:41

现有的检索增强型语言模型（Retrieval-Augmented Language Models, RALMs）在处理外部知识时存在一定的局限性。这些模型有时会因为检索到不相关或不可靠的信息而产生误导性的回答，或者在面对检索信息和模型内在知识的干扰时，无法正确选择使用哪一种知识。此外，在检索信息不足或完全不存在的情况下，标准的RALMs可能会尝试生成一个答案，即使它们并不具备足够的信息来准确作答。

1、方法介绍

CHAIN-OF-NOTE的核心思想是通过创建顺序阅读笔记来对每个检索文档进行评估。这种方法不仅评估了每个文档与查询的相关性，还确定了这些文档中最关键和可靠的信息。这个过程有助于过滤掉不相关或可信度较低的内容，从而导致更准确和上下文相关的响应。

给定一个输入问题x和k个检索到的文档，模型的目标是生成包含多个段落的文本输出。其中，表示第i个段落的标记，代表相应文档的阅读笔记，如图2所示。在生成各个阅读笔记后，模型综合这些信息以生成最终的响应y。Chain-of-Note (CoN)的实现包括三个关键步骤：(1) 设计笔记，(2) 收集数据，(3) 训练模型。

笔记设计

CON 主要构建三种类型的阅读笔记，基于检索文档与输入问题的相关性：

直接回答型笔记：当一个文档直接回答了查询时，模型基于此相关信息制定最终响应。（图2a）
间接推断型笔记：如果检索文档没有直接回答查询但提供了有用的上下文，模型利用这些信息及其内在知识推断答案。（图2b）
未知型笔记：在检索文档无关且模型缺乏足够知识的情况下，默认回复“未知”。（图2c）

这种细致的方法模拟了人类信息处理的方式，在直接检索、推理以及承认知识空白之间取得平衡。

数据收集

为了使模型能够生成这样的阅读笔记，需要收集适当的训练数据。由于手动注释资源密集，研究团队使用 GPT-4 来生成笔记数据。具体步骤如下：

问题选取：首先从 NQ 数据集随机抽取 10000 个问题。
笔记生成：然后用特定指令和情境例子提示 GPT-4 生成不同类型的笔记，确保覆盖所有三种类型。

质量评估：对小部分生成的数据进行人工评估以保证质量。

模型训练

使用这些数据训练LLaMa2 7B模型，将指令、问题和文档连接起来作为提示，模型学习顺序生成每个文档的阅读笔记，以评估它们与输入查询的相关性，并基于文档的相关性生成回答。

另外，为了减少CON推理成本，使用了一种称为混合训练的策略，将50%的训练时间分配给标准RALM（直接生成答案，不使用笔记），另外50%分配给使用CON的RALM。这种策略允许模型在训练期间内化中间推理步骤。

在推理阶段仅使用标准 RALM 提示来指导模型输出答案，而不依赖显式的阅读笔记。这使得模型可以在保持相同推理速度的同时，只略微降低性能。

2、实验结果

数据集

为了全面评估 Chain-of-Note 的性能，除NQ外，还在三个额外的开放域数据集上测试了其性能，包括TriviaQA、WebQ和RealTimeQA，展示了其对域外（OOD）数据的泛化能力。

NQ (Natural Questions)：一个大型的问答数据集，包含来自搜索引擎的真实用户查询。
TriviaQA：一个涵盖多个领域的事实性问题数据集。
WebQ：一个基于网络的问题回答数据集，主要涉及简单的事实性问题。
Real-TimeQA：作为特殊情况用于评估“未知”稳健性，该数据集包括了2023年5月之后收集的问题，这些问题超出了 LLaMa-2 的预训练知识范围。

为了全面评估模型性能，实验分为两个部分：

全集评估：使用测试集中的所有问题来评估整体 QA 性能。文档通过 DPR（Dense Passage Retrieval）检索，并将 top-k 文档输入生成器。
子集评估：为了评估模型的噪声稳健性和未知稳健性，从上述测试集中提取包含相关文档的子集。根据噪音比率 r 确定相关和无关文档的数量。例如，当噪音比率是 20% 且需要 top-5 文档时，则 4 个为相关文档，1 个为无关文档。

整体 QA 性能评估

表2展示了不同模型在 NQ、TriviaQA 和 WebQ 上的整体表现。实验结果表明，装备CON的RALM在所有三个数据集上的平均EM分数提高了1.97%。

当DPR检索到相关文档时，平均改进为+1.2，当DPR未检索到相关文档时，NQ数据集的平均改进为+2.3。这一差异表明，CoN在检索阶段获取更多噪声文档的情况下提高了RALM的性能。

噪声稳健性评估

实验结果显示，CON 方法在引入噪声文档后仍能保持较好的性能。在不同噪声比例下，CON始终优于标准RALM，尤其是在完全噪声文档的情况下。表明 CON 可以有效过滤无关信息，提高模型对噪声数据的容忍度。

未知稳健性评估

针对 Real-TimeQA 数据集的评估表明，CON 方法在面对超出预训练知识范围的问题时具有更好的“未知”稳健性。具体表现为更高的拒绝率（RR），这意味着模型更倾向于承认自己的知识局限，而不是尝试猜测答案。这一特性对于实际应用尤为重要，因为它减少了误导性响应的风险。

混合训练策略的效果

最后，混合训练策略的效果也得到了验证。实验表明，经过混合训练的模型能够在保持与纯 CON 方法相似性能的同时，实现与标准 RALM 相同的推理时间。这意味着混合训练不仅有效地降低了推理成本，还保留了 CON 在处理复杂查询方面的优势。

3、总结

Chain-of-Note 技术通过构建详细的阅读笔记数据集，模拟人类的思考总结过程，增强了模型的推理能力。它在提高模型对噪声数据的容忍度、增强未知稳健性以及保持推理效率等方面表现出色，为检索增强型语言模型的发展提供了新的思路和方法。然而，需要注意的是，微调可能会改变模型的参数分布，对于模型的通用能力的影响还有待进一步评估。

未来的研究可以关注如何更好地平衡模型的推理能力和通用能力，以及如何进一步优化 Chain-of-Note 技术，使其在更多领域和应用场景中发挥更大的作用。

构建一个完全本地的语音激活的实用RAG系统

译者 | 布加迪审校 | 重楼本文将探讨如何构建一个RAG系统并使其完全由语音激活。 RAG（检索增强生成）是一种将外部知识用于额外上下文以馈入到大语言模型（LLM），从而提高模型准确性和相关性的技术。这是一种比不断微调模型可靠得多的方法，可以改善生成式AI的结果。

2/24/2025 8:39:08 AM

布加迪

RAG（一）RAG开山之作：知识密集型NLP任务的“新范式”

在AI应用爆发的时代，RAG（Retrieval-Augmented Generation，检索增强生成）技术正逐渐成为AI 2.0时代的“杀手级”应用。它通过将信息检索与文本生成相结合，突破了传统生成模型在知识覆盖和回答准确性上的瓶颈。不仅提升了模型的性能和可靠性，还降低了成本，增强了可解释性。

3/3/2025 11:41:11 AM

Glodma

RAG（四）Adaptive Retrieval --语言模型的信任边界，参数与非参数记忆的有效性研究

大语言模型（LMs）在许多自然语言处理任务上表现优异，但它们在记忆和回忆不太常见或不流行的事实知识方面存在明显的局限性。并且，当涉及到长尾实体（即那些在网络上讨论较少、出现频率较低的实体）的问题时，LMs 的性能显著下降，并且增加模型规模并不能有效地解决这一问题。此外，LMs 对于自身知识边界的认识有限，有时会产生幻觉，即生成看似合理但实际上错误的信息。

3/17/2025 12:52:44 PM

Glodma

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用 OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o 本地部署DeepSeek+DiFy平台构建智能体应用 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果深度学习 AI视频模态人形机器人 xAI 驾驶文本搜索字节跳动大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练 DeepMind

顶部

RAG（七）Chain-of-Note：笔记链让检索增强型语言模型更强大！

1、方法介绍

笔记设计

数据收集

模型训练

2、实验结果

数据集

整体 QA 性能评估

噪声稳健性评估

未知稳健性评估

混合训练策略的效果

3、总结

相关资讯

构建一个完全本地的语音激活的实用RAG系统

RAG（一）RAG开山之作：知识密集型NLP任务的“新范式”

RAG（四）Adaptive Retrieval --语言模型的信任边界，参数与非参数记忆的有效性研究