8. 知识库创建与管理


功能介绍

知识库是 Dify 的 RAG(检索增强生成)核心组件,它让你的 AI 应用能够基于特定的文档资料回答问题,而不仅仅依赖大语言模型的通用训练知识。通过将企业文档、产品手册、FAQ、技术文档等资料上传到知识库,Dify 会自动完成文本切分、向量化和索引构建,当用户提问时,系统从中检索最相关的文档片段作为 LLM 的参考上下文。

知识库支持多种文档格式(PDF、Word、TXT、Markdown、HTML、CSV 等),创建完成的知识库可以被多个应用同时引用,实现知识的复用。

使用方法

image-20260407165512089

点击顶部导航栏的「知识库」,选择数据源,然后点击「下一步」

image-20260407165602048

设置分段设置和索引方式。

image-20260407170213002

选择检索设置点击「保存并处理」即可创建知识库。

使用技巧

  • 上传前对文档进行预处理可以大幅提升检索质量:去除无关的页眉页脚、目录页、广告内容等噪音信息。
  • 文档命名要清晰有意义,便于在知识库中管理和识别。
  • 文本切分大小会影响检索精度:切片太大会引入无关信息,切片太小可能丢失上下文。建议从默认值开始,根据实际效果调优。
  • 在应用中使用知识库时,记得在提示词中告诉 LLM 如何使用检索到的内容,例如"请基于以下参考资料回答用户问题,如果资料中没有相关信息,请如实告知"。
  • 利用「测试检索」功能定期验证知识库的检索质量,确保重要问题都能检索到正确的文档片段。

知识库 API

Dify 知识库提供两种 API:

  • 服务 API:用于在应用中访问知识库的检索功能。
  • 外部知识库 API:用于将外部数据源连接到 Dify 作为知识库。

示例

示例一:产品文档知识库

知识库名称:XX 产品技术文档库
文档来源:产品使用手册 PDF、API 文档 Markdown、常见问题 FAQ 文档
切分策略:自动切分(默认参数)
用途:关联到产品客服聊天助手,让 AI 基于产品文档回答技术问题

示例二:公司制度知识库

知识库名称:公司规章制度库
文档来源:员工手册、考勤制度、报销规范、薪酬政策、培训手册
切分策略:按段落切分,保持每个制度条款的完整性
用途:关联到 HR 助手和员工自助查询机器人

示例三:学术论文知识库

知识库名称:AI 领域论文库
文档来源:50 篇关于 RAG、Agent、Prompt Engineering 的学术论文 PDF
切分策略:自定义切分,切片大小 1000 token,重叠 200 token
用途:关联到学术研究助手,辅助文献综述和论点分析

示例四:电商商品知识库

知识库名称:商品信息库
文档来源:商品目录 CSV、品牌介绍文档、用户评价汇总
切分策略:CSV 按行切分,文档按段落切分
用途:关联到电商导购聊天助手,帮助用户选购商品

示例五:法律法规知识库

知识库名称:劳动法规知识库
文档来源:劳动法全文、劳动合同法、地方实施条例、经典判例
切分策略:按条款和章节切分
用途:关联到法律咨询预审助手,为用户提供法规依据