前言
上一篇文章写到了部署本地deepseek,基于这篇文章,继续讲一下如何搭建自己的知识库。 可能很多人会有疑问,本地部署有什么优势呢。其实如果不是有特别的技术研究和比较私密的数据,可以不用搭建。但优势肯定是更多的,特别是当你需要高效管理、查询和利用特定领域的知识时:
1. 精准匹配,提升问答质量
- 定制化内容:可以存储企业内部文档、技术手册、学习资料等,确保 AI 只回答与你业务或需求相关的问题。
- 减少错误信息:避免 AI 从互联网上获取不可靠的信息,确保回答基于你提供的知识。
2. 提高查询效率,减少重复搜索
- 快速获取知识:通过 AI 直接提取知识库内容,不需要手动翻阅大量资料。
- 跨文档搜索:可以搜索多个文档,找到相关信息,而不是靠关键词匹配。
3. 保护隐私和数据安全
- 本地部署,数据不外泄:如果使用本地 LLM(如 DeepSeek + Ollama),所有数据都在自己服务器,不会泄露给第三方。
- 权限管理:可以设定不同级别的访问权限,确保只有授权用户可以查询特定信息。
4. 适应不同场景,提高工作效率
- 企业知识管理:帮助公司存储和管理规章制度、技术文档、培训资料,提升员工工作效率。
- 技术支持/客服:搭建 FAQ 知识库,自动回答用户常见问题,减少人工客服压力。
- 个人学习与研究:整理笔记、论文、学习资料,随时用 AI 进行问答和总结。
5. 支持 AI 训练与优化
- 微调 AI 模型:基于你自己的知识库进行训练,使 AI 回答更符合你的领域需求。
- 持续更新,知识不断完善:可以动态添加、更新内容,确保 AI 始终使用最新的知识。
搭建 DeepSeeK R1 知识库步骤
这个过程大概分为6步,下载之前的文章写过,就不会详细再介绍了
第一步:注册账号
先注册一个硅基流动的账号,你有账号就不用注册了,注册这里不教了。官网地址:https://cloud.siliconflow.cn/进去之后呢就是下面的界面:
在这里插入图片描述
第二步:创建秘钥
注册成功后点击 API 密钥,新建 API 密钥,这里填的话,随便填都是可以的不影响。创建之后点击复制密钥。
在这里插入图片描述
第三步:下载Cherry Studio
官网(https://cherry-ai.com/) 客户端,之前也介绍了这个。这个数据是在本地存储的,所以无需担心数据安全的问题。
在这里插入图片描述
第四步:设置秘钥
下载好之后,就可以设置秘钥了,点击设置,然后将刚刚复制的 API 密钥粘贴上去。
在这里插入图片描述
第五步:给知识库添加模型
在知识库填充内容:
在这里插入图片描述
第六步:选择自己的知识库
在问答中引入知识库:
在这里插入图片描述
然后问的问题回答的内容就是根据知识库来的。
在这里插入图片描述
就这些步骤了,是不是也很简单。
上传知识库的文件类型
这个是deepseek的回答,可供参考。这么多类型我也没一一试过,感兴趣可以试一下。
1.文本文件
- 文件类型:.txt、.md(Markdown)。
- 用途:用于存储纯文本内容,适合简单的知识库数据。
- 示例:
ounter(lineounter(line 什么是人工智能? 人工智能是模拟人类智能的技术。
2.表格文件
- 文件类型:.csv、.xlsx(Excel)。
- 用途:适合结构化数据,例如问答对、术语表等。
- 示例(CSV 格式):
ounter(lineounter(lineounter(line question,answer 什么是人工智能?,人工智能是模拟人类智能的技术。 DeepSeek 是什么?,DeepSeek 是一个基于深度学习的 AI 平台。
3.JSON 文件
- 文件类型:.json。
- 用途:适合存储结构化或半结构化数据,例如嵌套的问答对、知识图谱等。
- 示例:
ounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(line [ { "id": 1, "question": "什么是人工智能?", "answer": "人工智能是模拟人类智能的技术。" }, { "id": 2, "question": "DeepSeek 是什么?", "answer": "DeepSeek 是一个基于深度学习的 AI 平台。" } ]
1)数据库导出文件
- 文件类型:.sql、.db(SQLite)。
- 用途:适合从现有数据库中导出的数据,可以直接导入到知识库中。
2)文档文件
- 文件类型:.pdf、.docx(Word)、.pptx(PowerPoint)。
- 用途:适合上传包含丰富格式的文档,例如技术手册、研究报告等。
- 注意:需要平台支持文档解析功能,提取文本内容。
3)知识图谱文件
- 文件类型:.rdf、.ttl(Turtle)、.owl。
- 用途:适合存储复杂的知识图谱数据,支持语义检索。
4)压缩文件
- 文件类型:.zip、.tar.gz。
- 用途:用于批量上传多个文件,方便一次性导入大量数据。
8. 图像文件
- 文件类型:.jpg、.png。
- 用途:适合上传包含文本的图像(如扫描件),需要 OCR 功能提取文本。