DeepSeek R1 搭建个人 AI 知识库

前言上一篇文章写到了部署本地deepseek,基于这篇文章,继续讲一下如何搭建自己的知识库。 可能很多人会有疑问,本地部署有什么优势呢。 其实如果不是有特别的技术研究和比较私密的数据,可以不用搭建。

前言

上一篇文章写到了部署本地deepseek,基于这篇文章,继续讲一下如何搭建自己的知识库。 可能很多人会有疑问,本地部署有什么优势呢。其实如果不是有特别的技术研究和比较私密的数据,可以不用搭建。但优势肯定是更多的,特别是当你需要高效管理、查询和利用特定领域的知识时:

1. 精准匹配,提升问答质量

  • 定制化内容:可以存储企业内部文档、技术手册、学习资料等,确保 AI 只回答与你业务或需求相关的问题。
  • 减少错误信息:避免 AI 从互联网上获取不可靠的信息,确保回答基于你提供的知识。

2. 提高查询效率,减少重复搜索

  • 快速获取知识:通过 AI 直接提取知识库内容,不需要手动翻阅大量资料。
  • 跨文档搜索:可以搜索多个文档,找到相关信息,而不是靠关键词匹配。

3. 保护隐私和数据安全

  • 本地部署,数据不外泄:如果使用本地 LLM(如 DeepSeek + Ollama),所有数据都在自己服务器,不会泄露给第三方。
  • 权限管理:可以设定不同级别的访问权限,确保只有授权用户可以查询特定信息。

4. 适应不同场景,提高工作效率

  • 企业知识管理:帮助公司存储和管理规章制度、技术文档、培训资料,提升员工工作效率。
  • 技术支持/客服:搭建 FAQ 知识库,自动回答用户常见问题,减少人工客服压力。
  • 个人学习与研究:整理笔记、论文、学习资料,随时用 AI 进行问答和总结。

5. 支持 AI 训练与优化

  • 微调 AI 模型:基于你自己的知识库进行训练,使 AI 回答更符合你的领域需求。
  • 持续更新,知识不断完善:可以动态添加、更新内容,确保 AI 始终使用最新的知识。

搭建 DeepSeeK R1 知识库步骤

这个过程大概分为6步,下载之前的文章写过,就不会详细再介绍了

第一步:注册账号

先注册一个硅基流动的账号,你有账号就不用注册了,注册这里不教了。官网地址:https://cloud.siliconflow.cn/进去之后呢就是下面的界面:

在这里插入图片描述在这里插入图片描述

第二步:创建秘钥

注册成功后点击 API 密钥,新建 API 密钥,这里填的话,随便填都是可以的不影响。创建之后点击复制密钥。

在这里插入图片描述在这里插入图片描述

第三步:下载Cherry Studio

官网(https://cherry-ai.com/) 客户端,之前也介绍了这个。这个数据是在本地存储的,所以无需担心数据安全的问题。

在这里插入图片描述在这里插入图片描述

第四步:设置秘钥

下载好之后,就可以设置秘钥了,点击设置,然后将刚刚复制的 API 密钥粘贴上去。

在这里插入图片描述在这里插入图片描述

第五步:给知识库添加模型

在知识库填充内容:

在这里插入图片描述在这里插入图片描述

第六步:选择自己的知识库

在问答中引入知识库:

在这里插入图片描述在这里插入图片描述

然后问的问题回答的内容就是根据知识库来的。

在这里插入图片描述在这里插入图片描述

就这些步骤了,是不是也很简单。

上传知识库的文件类型

这个是deepseek的回答,可供参考。这么多类型我也没一一试过,感兴趣可以试一下。

1.文本文件

  • 文件类型:.txt、.md(Markdown)。
  • 用途:用于存储纯文本内容,适合简单的知识库数据。
  • 示例:
复制
ounter(lineounter(line
什么是人工智能?
  人工智能是模拟人类智能的技术。

2.表格文件

  • 文件类型:.csv、.xlsx(Excel)。
  • 用途:适合结构化数据,例如问答对、术语表等。
  • 示例(CSV 格式):
复制
ounter(lineounter(lineounter(line
question,answer
  什么是人工智能?,人工智能是模拟人类智能的技术。
  DeepSeek 是什么?,DeepSeek 是一个基于深度学习的 AI 平台。

3.JSON 文件

  • 文件类型:.json。
  • 用途:适合存储结构化或半结构化数据,例如嵌套的问答对、知识图谱等。
  • 示例:
复制
ounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(line
  [
      {
          "id": 1,
          "question": "什么是人工智能?",
          "answer": "人工智能是模拟人类智能的技术。"
      },
      {
          "id": 2,
          "question": "DeepSeek 是什么?",
          "answer": "DeepSeek 是一个基于深度学习的 AI 平台。"
      }
  ]

1)数据库导出文件

  • 文件类型:.sql、.db(SQLite)。
  • 用途:适合从现有数据库中导出的数据,可以直接导入到知识库中。

2)文档文件

  • 文件类型:.pdf、.docx(Word)、.pptx(PowerPoint)。
  • 用途:适合上传包含丰富格式的文档,例如技术手册、研究报告等。
  • 注意:需要平台支持文档解析功能,提取文本内容。

3)知识图谱文件

  • 文件类型:.rdf、.ttl(Turtle)、.owl。
  • 用途:适合存储复杂的知识图谱数据,支持语义检索。

4)压缩文件

  • 文件类型:.zip、.tar.gz。
  • 用途:用于批量上传多个文件,方便一次性导入大量数据。

8. 图像文件

  • 文件类型:.jpg、.png。
  • 用途:适合上传包含文本的图像(如扫描件),需要 OCR 功能提取文本。

相关资讯