Clouisle云屿

知识库优化

按资料质量、分块策略、检索参数和固定样例回归的顺序持续优化知识库效果。

功能概述

知识库上线后不会自动一直保持最佳效果。
随着文档增多、问题变复杂、业务范围扩大,命中质量和回答稳定性都需要持续调优。

适用场景

适合:

  • 文档越来越多,命中开始变杂
  • Agent 接了知识库但回答仍不稳定
  • 同一问题在不同时间命中结果差异很大

前置条件

开始优化前,建议准备:

  • 一组固定测试问题
  • 每个问题期望命中的文档
  • 当前分块参数和检索参数记录

操作步骤

第 1 步:先检查资料质量,不要一上来就调参数

优化前先确认文档本身是否已经有问题,例如:

  • 内容过期
  • 同一主题有多个冲突版本
  • 一份文档混杂过多主题

如果资料本身有问题,参数调优通常收益有限。

第 2 步:再调整分块策略

当确认资料质量基本正常后,再观察:

  • chunk_size 是否过大
  • chunk_overlap 是否过小
  • 分隔符是否适合当前文档类型

这一步会直接影响命中精度和上下文完整度。

第 3 步:最后调检索参数

常见重点包括:

  • top_k
  • score_threshold
  • 是否启用重排序或不同检索方式

参数调优的目标不是“结果越多越好”,而是让最相关内容更稳定地排在前面。

第 4 步:每次只改一类变量,再立即回归

调优时最怕一次改太多。
建议遵循下面顺序:

  1. 先改资料
  2. 再改分块
  3. 最后改检索参数

每次只改一类后,都用同一批问题重新回归。

第 5 步:把调优结果反馈到 Agent 实测

知识库侧的命中变好后,最后再回到 Agent 中验证:

  • 回答是否更稳定
  • 幻觉是否减少
  • 是否更容易命中正确上下文

如果知识库侧已经明显变好,但 Agent 仍不稳定,再继续看提示词或模型层。

结果验证

一轮有效的知识库优化,至少应看到:

  • 固定问题命中率提升
  • 噪声结果减少
  • Agent 最终回答更接近标准答案

常见问题

为什么调了很多参数,效果还是不稳定

很可能问题不在参数,而在资料本身。
如果资料冲突、过期或主题混杂,再细的调参也难以长期稳定。

为什么要固定一批测试问题

因为没有固定样例,你很难知道这次优化到底是变好了,还是只是碰巧换了另一种不稳定表现。

为什么知识库调优后还要回到 Agent 里再测

因为最终用户看到的是 Agent 的回答,而不是检索分数。
知识库调优是否真的有价值,最终还要体现在应用效果上。

注意事项

  • 先修资料,再调参数
  • 每次只改一类变量,方便定位效果来源
  • 调优目标应服务真实业务问题,而不是只看抽象指标

目录