工作流监控

按看趋势、找失败样本、回放执行日志和反馈优化的顺序持续监控工作流。

功能概述

工作流监控用于回答两个关键问题：

它不只是看“跑了多少次”，更重要的是帮你找到失败分布、耗时异常和节点级问题。

适合：

开始前建议具备：

查看工作流监控时，第一眼先看总体数据：

工作流监控页

这一步的目的，是先判断问题是偶发、局部还是系统性。
如果你一开始就只盯单条失败日志，很容易误判整体状态。

当你发现成功率下降或失败增加后，再去看失败记录。
重点判断：

如果失败样本高度集中，通常说明问题不是随机波动，而是某个固定环节出了问题。

进入具体执行记录后，重点还原下面几个问题：

工作流日志页

这一阶段不要急着改流程，先把“问题发生在哪里”看清楚。

日志看清后，建议再做一次分类判断：

监控的终点不是“看过了”，而是推动改进。
建议把结论带回：

一个有效的工作流监控体系，至少应满足：

因为运行次数只代表流量，不代表质量。
如果不结合成功率、耗时和失败分布，很难判断工作流是否真的健康。

通常说明问题来自固定节点或固定依赖，而不是偶发波动。
这时应优先修流程或依赖，而不是靠人工重试掩盖问题。

这往往意味着平均耗时掩盖了长尾问题。
应进一步筛高耗时样本，而不是只看平均值。