大模型应用的能力分级

2025-04-02 01:25

对大模型应用的能力分级就像给学生打分一样，能让我们更清楚它的本事有多大。能力分级能帮我们设定目标，知道AI现在能干什么，未来还要学什么。有了统一的分级方式，大家就能公平比较不同AI的水平，推动技术进步。

对大模型应用的能力分级就像给学生打分一样，能让我们更清楚它的本事有多大。能力分级能帮我们设定目标，知道AI现在能干什么，未来还要学什么。有了统一的分级方式，大家就能公平比较不同AI的水平，推动技术进步。同时，不同分级的AI适合干不同的活儿，能帮我们找到最合适的帮手。另外，能力分级让普通人更容易理解AI的能力，避免过度期待或担心。

大模型的应用主要有两种常见模式：RAG 和 Agent。选哪种 RAG 架构，得看具体要解决什么问题，确保它适合任务需求。现在，带有智能体（Agent）功能的 RAG 越来越重要，它和“智能体 x”的概念很像。这个“x”就像是一个万能工具箱，可以根据不同场景灵活调整，帮我们自动完成任务并做出明智决策，从而提升效率。另外，要想处理复杂的多部分问题，整合不同来源的文档信息非常关键。简单来说，这些技术都是为了让人工智能更聪明、更灵活地帮我们解决问题。

1. RAG 回顾

实现一个高效的 RAG（检索增强生成）系统面临几个关键挑战：首先，系统需要能够准确地找到与用户问题相关的信息；其次，它必须正确理解用户的真实意图；最后，还要能够利用大型语言模型（LLM）的推理能力来处理复杂的任务。为了提升推理能力，可以采用一种叫做“Agentic”的方法，比如 ReAct，这种方法通过构建一系列的逻辑推理和操作步骤来解决问题。需要注意的是，不同的 LLM 应用场景可能需要不同的解决方案，没有一种方法能适用于所有情况。

1.1 上下文

上下文指的是对话过程中积累的相关信息，它帮助 AI 更好地理解用户的需求，并作出恰当、连贯的回应。这些信息包括用户之前说过的话、当前的任务背景、环境因素，以及其他可能影响对话的外部数据。通过有效地处理上下文，AI 能够保持对话的一致性和个性化，根据对话的进展调整回答，使整个交流过程更加自然和有意义。

1.2 用户意图检测

很多时候，系统表现不佳是因为没有抓住用户问题的核心，或者面对需要多种技能结合的任务时，未能准确区分和应用这些技能。用户意图指的是用户提问背后的真正目的或目标，即他们希望通过问题得到什么或表达什么。准确识别用户意图是 AI 系统提供合适回应的关键。

2. RAG 的能力分级

根据微软的研究成果，RAG的能力可以从搜索的复杂程度上分为4个层级。

图片

2.1 Level 1: 显式事实查询

这种查询是最简单的形式，用户直接询问某个具体的事实，而这个事实在数据中是明确存在的，不需要额外的推理。比如，用户问“地球的直径是多少？”这种问题只需要从数据中找到对应的数字即可。RAG 系统的任务就是定位并提取这些直接存在的信息，就像在一本书中快速找到某个特定的句子一样。

2.2 Level 2: 隐式事实查询

这种查询稍微复杂一些，用户的问题并不是直接指向某个明确的事实，而是需要结合一些背景知识或逻辑推理才能得出答案。比如，用户问“堪培拉所在国的多数党是什么？”要回答这个问题，系统需要知道堪培拉是澳大利亚的首都，然后再结合澳大利亚当前的政党情况来推断答案。这种查询可能需要从多个地方提取信息，并进行简单的逻辑连接。

在这个层次上，RAG 系统开始展现出一定的“智能体”特性，因为它不仅需要检索信息，还需要进行一些推理和逻辑判断。

2.3 Level 3: 可解释的推理查询

这种查询不仅要求知道事实，还需要理解事实背后的逻辑和原理，并且能够提供清晰的解释。回答这类问题需要结合事实知识和特定领域的规则或准则，而这些规则通常不会在普通的语言模型预训练中出现。

举个例子，在财务审计中，一个法律专家可能需要根据合规准则来判断一家公司的财务报表是否符合标准。这不仅仅是简单地查找数据，还需要应用专业的规则来分析和解释。

同样，在技术支持场景中，系统可能需要按照故障排除的流程来帮助用户解决问题，确保每一步都符合既定的操作规范，从而提供准确且一致的响应。这种查询要求系统不仅要有知识，还要有能力应用这些知识来解决实际问题。

2.4 Level 4: 隐式的推理查询

这种查询要求 AI 不仅要看到表面的信息，还要深入挖掘数据背后的潜在规律和逻辑。它需要根据上下文和观察到的模式，推断出那些没有直接写出来的复杂原理。这些隐藏的原理往往涉及深层次的推理和逻辑联系，很难直接找到或提取。

例如，在 IT 运维中，AI 可以通过分析过去解决类似问题的成功案例，总结出有效的策略。它需要从大量数据中发现规律，而不是简单地照搬已有的解决方案。

另外，在软件开发中，AI 可以通过研究过去的调试案例，推断出高效的问题解决方法。通过整合这些隐含的洞察，AI 能够提供更精细、更贴近实际经验的建议，帮助做出更明智的决策。这种查询体现了 AI 从数据中学习并提炼智慧的能力。

图片

可解释和隐藏的基本原理将重点放在了 RAG 系统理解和运用数据背后逻辑的能力上。这些更高层次的任务需要更深入的思考过程，通常需要结合专家知识或从大量非结构化历史数据中提炼出有价值的见解。

通过前面的例子可以看出，直接查询明确事实的任务（比如查询签证资格需要参考领事馆的官方指南，属于 L3）与需要依赖隐含推理的任务（比如分析公司未来发展的经济影响，需要结合财务报告和经济趋势，属于 L4）是有明显区别的。

无论是哪种情况，数据的外部来源都至关重要——可能是官方文件，也可能是专家的分析报告。在这些场景中，提供基本原理不仅能让回答更加准确，还能将答案与上下文联系起来，让用户不仅知道“是什么”，还能理解“为什么”。这种能力让智能体化 RAG 系统的回答更加全面和可信。

3.AI Agent

AI Agent 是一种智能自动化系统，能够理解和应对复杂问题，解决多方面的挑战，并完成需要推理、适应和决策的任务。与传统的自动化工具不同（它们通常依赖固定的规则和预设的脚本），AI Agent 利用机器学习（ML）和自然语言处理（NLP）技术，能够不断学习和提升自己。这种能力让 AI Agent 变得非常灵活，可以应对动态且不可预测的环境，并随着新信息的出现快速调整策略。

例如，如果一个 AI Agent 的任务是提供客户支持，它可以从过去的对话中学习，改进自己的回答方式，并自动适应每个客户的独特需求。这种既能自主学习又能独立运作的能力，使 AI Agent 成为复杂环境中的理想选择，尤其是在需要高度适应性和对上下文深度理解的场景中。

3.1 AI Agents的主要特征

AI Agent对企业来说是个“好帮手”，能简化工作、提升客服水平、提高团队效率。它的优势主要体现在以下几个方面：

灵活应变：AI Agent能根据最新数据调整策略，轻松应对各种复杂多变的场景。
任务拆分：将大任务拆成小步骤，一步步解决，还能不断优化，直到找到最佳方案。
理解上下文：AI Agent能“听懂”对话或任务的背景，即使问题复杂或模糊，也能给出准确回应。
人机协作：遇到难题或需要高精度时，AI Agent可以请人类专家帮忙，结合AI的高效和人类的智慧。
工具整合：它能连接各种外部工具、数据库和系统，执行计算或获取实时数据，功能更强大。

不过，使用AI Agent也需要仔细规划，比如控制响应时间、确保透明性，以及保证数据质量。只有这样，才能让它真正发挥作用。

3.2 AI Agents的演化：从简单自动化到复杂自主系统

AI Agent 的发展离不开机器学习和自然语言处理技术的进步，同时也得益于对现实世界复杂场景的适应需求。早期的自动化工具，比如 RPA（机器人流程自动化）和链式系统，虽然能够处理结构化的任务流程，但缺乏应对不可预测情况的灵活性。而随着 AI Agent 的出现，我们现在拥有了能够处理模糊输入、进行多步推理，并根据动态变化的上下文做出决策的智能系统。

传统的自动化工具依赖于预先设定好的任务步骤，每一步都严格按照固定的规则执行。例如，RPA 通过模拟人类与软件的交互（比如登录系统、将数据从一个应用复制到另一个应用）来自动化重复性任务。然而，RPA 的局限性在于它的僵化性——一旦工作流程或条件发生变化，就需要重新编程，这使得它在面对动态环境时显得力不从心。

与传统的 RPA 和链式系统相比，AI Agent 具备完全不同的能力。接下来，从多个维度详细探讨它们之间的区别：

指标	AI Agent	传统自动化系统(RPA)
灵活性和推理能力	高度的灵活性和复杂的推理能力，能够根据实时条件调整动作	刚性的，遵循预先设定的规则，没有偏差
粒度状态感知	保持对其环境的粒度理解，允许它们调整以适应不断变化的条件	局限于固定的工作流
自动化方法	使用机器学习和自然语言处理动态决策	依赖于基于规则的脚本
人机互动（HITL)	在不确定的情况下，人的监督可以指导智能体，提高准确性	依靠手动干预异常
成本管理	有较高的初始成本，但由于其适应性，可提供可伸缩性和长期节省。	具有较低的前期成本，但随着频繁的更新而变得昂贵。
延迟优化	通过预取和并行处理最小化延迟	顺序操作，导致较高的延迟
动作序列生成	动态地生成动作序列，根据上下文的变化进行调整	遵循严格的序列
工具集成	与外部工具无缝集成，根据需要扩展它们的能力	需要手动配置才能添加新工具
透明度	允许洞察他们的决策过程，这对于信任和合规必不可少	静态特性，通常不太透明
工作流程设计	专注于基于编码的配置	经常使用视觉设计画布，允许轻松的拖放调整
会话能力	擅长自然语言会话，处理复杂的，类似人类的互动	仅限于简单的文本命令
学习能力	自主地从经验中学习	没有任何学习能力
上下文感知	基于交互的上下文做出响应	在静态框架内运行
任务分解	将任务分解成更小的步骤，并根据反馈进行调整	遵循线性的固定路径
实时决策	根据实时数据做出决策	使用预定义的决策树
处理非结构化数据	可以解释自然语言、图像和音频等非结构化数据	难以处理非结构化数据
目标导向行为	追求高层次的目标，调整方法以达到目标	以任务为中心的，缺乏总体目的导向
可伸缩性	具有高度的可伸缩性，可以在不同的环境中运行	需要定制才能在不同的系统中运行
主动能力	可以根据用户行为启动操作	只对特定的触发器做出反应
工具互操作性	灵活地与各种工具和 api 集成	仅限于特定的工具
开发环境	需要基于代码的环境	无代码 / 低代码友好
适应性	利用机器学习来处理新的、不可预见的情况，使它们能够适应变化	在计划外的情况下会失败

关于Agent 的更多内容，可以参考《AI 驱动的数据分析：Data Agent》、《Agent 应用于提示工程》、《基于大模型（LLM）的Agent 应用开发》和《当你问代理机制的时候？指的是Agent,Proxy,Broker还是Delegate呢？》等文。

4. AI Agent的 5 个自主性能力层级

AI Agent可以分为五个等级的自主性，每一个等级代表独立行动和处理复杂任务的能力。

图片

4.1 Level 1: 反应性智能体

反应性智能体是最基础的 AI Agent 类型。它们的工作原理很简单：根据“如果发生 X，那么就执行 Y”的规则来响应特定的输入。这些智能体没有记忆功能，也无法理解上下文，因此只能处理非常简单的任务。虽然它们在回答一些常见问题时表现不错，但面对更复杂或需要灵活应对的请求时，就显得力不从心了。

主要特点：

基于规则运行：只能按照预设的规则做出反应。
没有记忆：无法记住过去的交互或学习新的信息。
适用场景：适合处理简单的客户服务任务或日常查询。

举个例子：一个简单的客服机器人，可以回答像“你们的营业时间是几点？”或“我的订单到哪了？”这样的常见问题，但如果问题稍微复杂一点，比如“我的订单为什么延迟了？”，它就很难给出有用的回答了。

4.2 Level 2: 上下文智能体

上下文智能体比反应性智能体更聪明一些，它们能理解基本的语境信息。不像只能简单回应的智能体，它们可以通过分析环境中的线索做出更合理的决定。虽然它们仍然依赖规则，但能根据用户的历史记录、位置等条件调整回应方式。

主要特点：

能利用有限的上下文信息提高回应的准确性。
可以根据环境变化调整行为。
适合需要结合简单上下文来提升服务质量的场景。

举个例子：比如，一个虚拟助手可以根据用户的位置推荐附近的商店营业时间，或者根据用户过去的互动记录提供更个性化的建议。这种智能体能让服务更贴心、更实用。

4.3 Level 3: 适应性智能体

自适应智能体就像会学习的小助手，它们利用机器学习技术从过去的互动中总结经验，不断改进自己的表现。它们能根据用户的反馈调整行为，非常适合需要灵活应对的场景。这类智能体常用于客服和支持工作，通过分析用户反馈来提升服务质量。

主要特点：

借助机器学习，能够持续进步。
通过分析用户反馈和行为模式，优化回应方式。
非常适合需要灵活适应、依赖数据的任务。

举个例子：比如，一个客服机器人可以通过分析过去的对话和用户反馈，更好地理解客户需求，提供更精准的帮助。

4.4 Level 4: 目标驱动的智能体

目标驱动型智能体就像“有主见的小助手”，它们被设计成能够独立完成特定目标，并通过策略性方法解决问题。与只能执行简单任务或适应环境的智能体不同，它们会评估多种策略，并选择最有可能达成目标的方式。这让它们特别适合处理需要多步计划和执行的复杂任务。

主要特点：

独立运作，能评估不同方法来实现目标。
可以给任务排优先级，并根据结果灵活调整策略。
非常适合需要战略规划和分步执行的复杂任务。

举个例子：比如，一个销售助手机器人可以根据客户的购物记录，主动推荐商品，甚至建议搭配单品，帮客户完成一整套服装搭配，实现他们的购物目标。

4.5 Level 5: 完全自主的适应性智能体

完全自主的适应性智能体就像“超级智能助手”，它们几乎可以独立完成复杂任务，几乎不需要人类干预。它们能理解杂乱无章的数据，灵活应对突发情况，并根据实时反馈调整策略。这种智能体非常适合高风险、快节奏的环境，因为它们的反应速度和准确性都非常出色。

主要特点：

能够自我学习并实时调整行为。
主动根据用户行为和上下文采取行动。
在高度变化的环境中也能高效工作，几乎不需要人类监督。

举个例子：比如，一个医疗AI智能体可以实时监测患者的健康数据，发现潜在的健康风险，并根据每个患者的病史和风险因素，给出预防性护理建议或进一步检查的方案。

图片

AI Agent 标志着商业技术的一次重大飞跃，它能够自动化处理那些复杂且高价值的任务，而这些任务在过去是无法交给机器完成的。随着机器学习、自然语言处理和计算能力的不断进步，AI Agent 将变得更加智能和自主，能够更好地理解上下文、学习新知识并做出明智的决策。

采用 AI Agent 的企业将从中获得显著的好处，比如提高工作效率、降低运营成本以及提升客户满意度。随着 AI Agent 能力的不断增强，我们可以预见它们将在战略决策、客户互动以及跨行业的流程优化中发挥越来越重要的作用，成为推动企业发展的核心力量。

5. 小结

将大模型应用的能力进行分级，不仅有助于推动技术发展，还能更好地匹配实际应用场景，同时也让公众更容易理解其价值。

根据微软的研究，RAG 的能力可以按照搜索的复杂程度分为四个层次：显式事实查询、隐式事实查询、可解释的推理查询和隐式的推理查询。无论处于哪个层次，外部数据来源都起着关键作用。

而根据 AI Agent 的自主性，可以将其分为五个层次：反应性智能体、上下文智能体、适应性智能体、目标驱动的智能体和完全自主的适应性智能体。未来的 AI 将是一个由多个相互关联、高度自主的智能体组成的生态系统。这些智能体将支持和增强人类的能力，提供更加个性化、高效且灵活的全新解决方案。

【参考资料】

Retrieval Augmented Generation (RAG) and Beyond: A Comprehensive Survey on How to Make your LLMs use External Data More Wisely，https://arxiv.org/pdf/2409.14924
https://blog.kore.ai/cobus-greyling/five-levels-of-ai-agents
https://blog.spheron.network/the-5-levels-of-ai-agents-a-comprehensive-guide-to-autonomous-ai-systems

RAG（一）RAG开山之作：知识密集型NLP任务的“新范式”

在AI应用爆发的时代，RAG（Retrieval-Augmented Generation，检索增强生成）技术正逐渐成为AI 2.0时代的“杀手级”应用。它通过将信息检索与文本生成相结合，突破了传统生成模型在知识覆盖和回答准确性上的瓶颈。不仅提升了模型的性能和可靠性，还降低了成本，增强了可解释性。

3/3/2025 11:41:11 AM

Glodma

手搓RAG新增功能：递归检索与迭代查询+重回成熟框架API

在上那篇提到的我手搓的那个 RAG 项目新增功能中，漏掉了递归检索与迭代查询，这篇补上（源码见知识星球）。经过初步调试对召回效果有明显提升，这种方法解决了传统 RAG 的几个关键问题：处理复杂多步骤问题：通过多次迭代，分解复杂问题信息不足的补充：当初始检索结果不足以回答问题时，自动生成补充查询多角度信息收集：能够从不同角度收集相关信息1、递归检索具体实现递归检索函数（recursive_retrieval）（支持最多三次迭代查询）每次迭代使用混合检索（向量检索 BM25）获取信息使用 LLM 分析当前检索结果，判断是否需要进一步查询如果需要，LLM 会生成新的查询问题，用于下一轮检索换句话说，递归检索的工作原理可以理解为"先检索-后思考-再检索"的过程，模拟了人解决问题的方式：先获取一些信息，思考下是否足够，如果不够则继续查找更多相关信息。总之，好的结果不是一蹴而就的。

3/10/2025 9:20:00 AM

韦东东

资讯热榜

企业级模型推理部署工具vllm使用指南 - 部署最新deepseek-v3-0324模型上海AI实验室开源InternVL3系列多模态大型语言模型 50组多风格提示词，全面测评Midjourney V7生图效果！全日程揭晓！ICLR 2025论文分享会我们北京见斯坦福2025 AI指数出炉！中美AI对决差距仅剩0.3%，DeepSeek领衔 5分钟直出46页论文！谷歌Deep Research完爆OpenAI，最强Gemini 2.5加持击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！ ChatGPT重大更新，能翻出所有历史对话，网友被AI聊破防了

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D AI设计 Anthropic 机器学习 GPU 开发者场景华为预测伟达 Transformer 百度深度学习苹果模态 AI视频驾驶文本 xAI 搜索人形机器人大语言模型 Copilot 神器推荐 LLaMA 字节跳动具身智能 Claude 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练

顶部

大模型应用的能力分级

1. RAG 回顾

1.1 上下文

1.2 用户意图检测

2. RAG 的能力分级

2.1 Level 1: 显式事实查询

2.2 Level 2: 隐式事实查询

2.3 Level 3: 可解释的推理查询

2.4 Level 4: 隐式的推理查询

3.AI Agent

3.1 AI Agents的主要特征

3.2 AI Agents的演化：从简单自动化到复杂自主系统

4. AI Agent的 5 个自主性能力层级

4.1 Level 1: 反应性智能体

4.2 Level 2: 上下文智能体

4.3 Level 3: 适应性智能体

4.4 Level 4: 目标驱动的智能体

4.5 Level 5: 完全自主的适应性智能体

5. 小结

相关资讯

推荐一个企业级知识图谱增强的检索增强生成(RAG)的项目

RAG（一）RAG开山之作：知识密集型NLP任务的“新范式”

手搓RAG新增功能：递归检索与迭代查询+重回成熟框架API

大模型应用的能力分级

1. RAG 回顾

1.1 上下文

1.2 用户意图检测

2. RAG 的能力分级

2.1 Level 1: 显式事实查询

2.2 Level 2: 隐式事实查询

2.3 Level 3: 可解释的推理查询

2.4 Level 4: 隐式的推理查询

3.AI Agent

3.1 AI Agents的主要特征

3.2 AI Agents的演化： 从简单自动化到复杂自主系统

4. AI Agent的 5 个自主性能力层级

4.1 Level 1: 反应性智能体

4.2 Level 2: 上下文智能体

4.3 Level 3: 适应性智能体

4.4 Level 4: 目标驱动的智能体

4.5 Level 5: 完全自主的适应性智能体

5. 小结

相关资讯

推荐一个企业级知识图谱增强的检索增强生成(RAG)的项目

RAG（一）RAG开山之作：知识密集型NLP任务的“新范式”

手搓RAG新增功能：递归检索与迭代查询+重回成熟框架API

3.2 AI Agents的演化：从简单自动化到复杂自主系统