RPC 服务巡检工作流

0x01 日常 RED 面板巡检

蓝鲸监控基于「RPC 指标规范」为 RPC 服务提供基于 RED 指标体系的标准监控面板查询语句，包括：

基于 Calculate By Range 的接口能力，提供 RED 指标按时间范围的汇总表格视图。

查询语句可用于日常 RPC 服务的健康状态巡检，帮助开发/运维人员及时发现和定位服务异常，以下列举部分巡检最佳实践。

通过 calculate_by_range 接口的维度过滤和分组功能，可以实现对 RED 指标的多维度下钻分析，帮助快速定位问题根因。

1）一般从 callee_method 开始，对返回数据按 callee_method 维度分组，并对指标查询结果进行排序，找出异常指标值突出的 TOP N 接口。

2）增加异常接口作为过滤条件，分析其他维度是否存在异常：

3）时间对比：找出引发异常维度组合，增加一天前（1d），一周前（7d）等时间范围对比，确认是否为新出现的问题。

4）调用链：

4）提升排查效率的技巧：

通过时序数据，观察请求量、耗时（P99）、超时率、异常率等指标的变化趋势，识别潜在的性能瓶颈和异常波动：

选取波动段作为时间范围，参考「a. 基于 calculate_by_range 进行维度下钻的通用技巧」，逐步缩小范围定位异常根因。

参考「a. 基于 calculate_by_range 进行维度下钻的通用技巧」：