知识库

按创建、导入、处理、检索验证的顺序搭建一个真正可用于 RAG 的知识库。

功能概述

知识库用于把 PDF、Markdown、网页或其他文档资料转换成可检索的知识内容。
只有文档被正确导入、处理并命中，Agent 和工作流才能真正基于资料回答问题。

适用场景

知识库适合承载：

产品文档
帮助中心
培训资料
公司制度
项目交付资料
FAQ 和网站页面

前置条件

开始前建议准备：

2 到 10 份结构清晰、版本较新的资料
一个可用的 Embedding 模型
3 到 5 个可用于检索测试的真实问题

操作步骤

第 1 步：进入知识库列表，先看现有知识结构

进入工作台的 知识库 页面，先确认当前已经有哪些知识库。
这一步重点看：

命名是否清晰
每个知识库大概有多少文档和分块
是否已有可直接复用的知识库

知识库列表

完成这一步后，你应该能决定是新建知识库，还是沿用已有知识库继续扩充资料。

第 2 步：创建知识库并填写基础信息

创建知识库时，建议先明确：

名称
描述
所属团队

名称最好直接体现资料主题，例如“产品帮助中心”“企业制度库”，不要只写“测试知识库”。

第 3 步：选择 Embedding 模型并设置分块参数

知识库创建时，至少要确认两类基础参数：

Embedding 模型
分块参数，例如 chunk_size、chunk_overlap

第一次建议先使用保守配置，不要一开始就频繁调参数。
目标是先得到一版可测试的结果，再基于命中情况优化。

第 4 步：导入第一批核心资料

第一次导入时，建议只放少量高质量文档，而不是一次把所有资料全量导入。
优先选择：

结构清晰
内容稳定
主题集中
可直接用于回答用户问题

的资料。

上传文档弹窗导入网址弹窗

第 5 步：进入知识库详情页，查看文档处理状态

导入完成后，进入知识库详情页，重点确认：

文档数量是否符合预期
处理状态是否成功
分块数量是否明显异常
Token 估算是否大致合理

知识库详情页

如果这一页里已经能看到文档和分块统计，说明知识库的基础处理链路已经开始生效。

如果需要针对单篇文档继续处理，还可以从文档行的操作菜单里继续：

编辑分块
重新处理
下载原文件
删除文档

第 6 步：做检索测试，而不是直接去问 Agent

知识库配置好后，不建议第一时间就拿 Agent 做整体测试。
应先独立验证知识库本身：

输入真实问题
看是否命中正确文档
看返回片段是否真的能支持回答

知识库命中测试页

这一步越早做，后面排查 Agent 效果问题越容易。

第 7 步：确认检索稳定后再关联到 Agent 或工作流

只有当检索结果已经比较稳定时，再把知识库接入 Agent 或工作流。
否则后续出现“回答不准”，你会很难判断问题到底出在知识库还是应用配置。

结果验证

一个可用的知识库，至少应满足：

在列表页里可以清楚看到它的名称、文档数和分块数
进入详情页后能看到文档处理成功
用真实问题检索时，能命中正确资料
关联到 Agent 后，回答质量有明显提升

常见问题

为什么文档上传成功了，但知识库效果很差

先不要急着换模型，优先检查：

文档内容是否过期或重复
分块是否过大或过碎
检索问题是否写得太像关键词，而不是用户真实问题

为什么知识库详情页有文档数量，但 Agent 还是检索不到

常见原因是：

文档还没处理完成
Agent 没有关联正确的知识库
检索阈值或命中数量设置不合适

为什么第一次不建议导入大量资料

因为第一轮最重要的是确认链路可用。
如果一开始就导入大量资料，后续很难判断问题究竟出在文档质量、参数还是检索策略。

注意事项

先用少量高质量资料跑通，再逐步扩充
知识库应先单独验证，再接入 Agent 或工作流
每次大规模调整参数后，都应重新做一轮固定样例测试

目录