Clouisle云屿

知识库

按创建、导入、处理、检索验证的顺序搭建一个真正可用于 RAG 的知识库。

功能概述

知识库用于把 PDF、Markdown、网页或其他文档资料转换成可检索的知识内容。
只有文档被正确导入、处理并命中,Agent 和工作流才能真正基于资料回答问题。

适用场景

知识库适合承载:

  • 产品文档
  • 帮助中心
  • 培训资料
  • 公司制度
  • 项目交付资料
  • FAQ 和网站页面

前置条件

开始前建议准备:

  • 2 到 10 份结构清晰、版本较新的资料
  • 一个可用的 Embedding 模型
  • 3 到 5 个可用于检索测试的真实问题

操作步骤

第 1 步:进入知识库列表,先看现有知识结构

进入工作台的 知识库 页面,先确认当前已经有哪些知识库。
这一步重点看:

  • 命名是否清晰
  • 每个知识库大概有多少文档和分块
  • 是否已有可直接复用的知识库

知识库列表

完成这一步后,你应该能决定是新建知识库,还是沿用已有知识库继续扩充资料。

第 2 步:创建知识库并填写基础信息

创建知识库时,建议先明确:

  • 名称
  • 描述
  • 所属团队

名称最好直接体现资料主题,例如“产品帮助中心”“企业制度库”,不要只写“测试知识库”。

第 3 步:选择 Embedding 模型并设置分块参数

知识库创建时,至少要确认两类基础参数:

  • Embedding 模型
  • 分块参数,例如 chunk_sizechunk_overlap

第一次建议先使用保守配置,不要一开始就频繁调参数。
目标是先得到一版可测试的结果,再基于命中情况优化。

第 4 步:导入第一批核心资料

第一次导入时,建议只放少量高质量文档,而不是一次把所有资料全量导入。
优先选择:

  • 结构清晰
  • 内容稳定
  • 主题集中
  • 可直接用于回答用户问题

的资料。

上传文档弹窗 导入网址弹窗

第 5 步:进入知识库详情页,查看文档处理状态

导入完成后,进入知识库详情页,重点确认:

  • 文档数量是否符合预期
  • 处理状态是否成功
  • 分块数量是否明显异常
  • Token 估算是否大致合理

知识库详情页 知识库文档操作菜单

如果这一页里已经能看到文档和分块统计,说明知识库的基础处理链路已经开始生效。

如果需要针对单篇文档继续处理,还可以从文档行的操作菜单里继续:

  • 编辑分块
  • 重新处理
  • 下载原文件
  • 删除文档

第 6 步:做检索测试,而不是直接去问 Agent

知识库配置好后,不建议第一时间就拿 Agent 做整体测试。
应先独立验证知识库本身:

  • 输入真实问题
  • 看是否命中正确文档
  • 看返回片段是否真的能支持回答

知识库命中测试页

这一步越早做,后面排查 Agent 效果问题越容易。

第 7 步:确认检索稳定后再关联到 Agent 或工作流

只有当检索结果已经比较稳定时,再把知识库接入 Agent 或工作流。
否则后续出现“回答不准”,你会很难判断问题到底出在知识库还是应用配置。

结果验证

一个可用的知识库,至少应满足:

  • 在列表页里可以清楚看到它的名称、文档数和分块数
  • 进入详情页后能看到文档处理成功
  • 用真实问题检索时,能命中正确资料
  • 关联到 Agent 后,回答质量有明显提升

常见问题

为什么文档上传成功了,但知识库效果很差

先不要急着换模型,优先检查:

  • 文档内容是否过期或重复
  • 分块是否过大或过碎
  • 检索问题是否写得太像关键词,而不是用户真实问题

为什么知识库详情页有文档数量,但 Agent 还是检索不到

常见原因是:

  • 文档还没处理完成
  • Agent 没有关联正确的知识库
  • 检索阈值或命中数量设置不合适

为什么第一次不建议导入大量资料

因为第一轮最重要的是确认链路可用。
如果一开始就导入大量资料,后续很难判断问题究竟出在文档质量、参数还是检索策略。

注意事项

  • 先用少量高质量资料跑通,再逐步扩充
  • 知识库应先单独验证,再接入 Agent 或工作流
  • 每次大规模调整参数后,都应重新做一轮固定样例测试

目录