Agent 能力增强

按知识、工具、视觉、文件、记忆和用户输入请求的顺序逐项增强 Agent。

功能概述

能力增强用于让 Agent 从“会回答”变成“会处理”。
它不是功能越多越好，而是要让每一项增强能力都服务于明确业务目标。

适用场景

适合：

回答必须基于内部知识
需要调用外部系统或平台工具
需要理解图片、文件或结构化输入
需要保存长期用户信息

前置条件

启用前建议确认：

基础 Agent 已经能稳定回答普通问题
你知道每项增强能力要解决什么问题
相关资源已经准备好，例如知识库、工具凭证、多模态模型

操作步骤

第 1 步：先启用知识增强

如果 Agent 的回答必须基于产品文档、制度、FAQ 或其他正式资料，优先启用知识库。
这是最常见、收益也最高的一类增强能力。

建议先验证：

能否命中正确资料
是否减少幻觉
是否更容易回答业务问题

第 2 步：再按需启用工具增强

当 Agent 需要查询数据、触发动作或调用外部系统时，再接入工具。
工具增强的重点不是“能不能调”，而是：

什么时候应该调用
调用失败时如何收口
返回结构能否被 Agent 正确消费

创建 HTTP 工具表单

如果你是第一次接入外部接口，建议优先从单一的 HTTP API 工具开始，先把：

请求方法
目标 URL
超时时间
入参定义

这几项跑通，再考虑增加认证和更复杂的返回值解析。

工具保存后，还应做一次最小测试，先确认输入参数和返回结果都可控，再决定是否交给 Agent 自动调用。

如果工具卡片上显示“需要配置”，要先回到工具中心补齐外部凭证，例如搜索服务的 API Key。

内置工具凭证配置弹窗

第 3 步：只有业务需要时，再开启视觉和文件能力

视觉和文件能力适合：

识别图片内容
处理上传文档
从附件里抽取信息

这类能力通常会增加模型要求、处理成本和调试复杂度，所以应后置开启。

第 4 步：在连续交互场景下，再评估记忆能力

如果 Agent 需要长期服务同一个用户、保存偏好或项目上下文，再考虑启用记忆。
记忆的价值在于连续性，不适合所有场景默认开启。

第 5 步：在流程需要暂停补信息时，再启用用户输入请求

用户输入请求适合这类场景：

流程中间缺关键信息
需要用户确认后再继续
不能靠 Agent 自行推断下一步

这项能力可以提高流程可控性，但应建立在主链路已经稳定的前提下。

第 6 步：每加一项能力，就单独做一次回归测试

增强能力最容易出问题的地方在于“一次加太多”。
建议每启用一项，就立刻验证：

是否真的生效
是否影响了原有回答
是否引入了新的错误路径

结果验证

增强能力配置完成后，至少应满足：

每项增强能力都能对应到明确业务需求
单独测试时可以确认它是否生效
开启后不会明显破坏基础回答稳定性

常见问题

为什么能力开得越多，效果反而越不稳定

通常是因为增强能力不是按需逐项验证，而是一次性全部叠加，导致问题来源被混在一起。

为什么知识增强应该优先于其他能力

因为它最直接影响回答真实性，也是大多数业务场景最先需要的能力。

为什么记忆和用户输入请求要后置评估

因为这两项能力会明显增加交互复杂度。
如果基础链路还没稳定，过早开启会让排障成本迅速升高。

注意事项

一次只新增一项增强能力
每次新增后都做独立回归测试
如果效果下降，优先按能力逐项回退定位问题

Agent 能力增强

目录