p95延迟需基于pg_stat_statements的平均单次耗时(total_time/calls),按queryid分组后取95百分位;因grafana不支持跨维percentile_over_time,须由prometheus通过recording rule或quantile_over_time计算,并结合postgres_exporter暴露指标实现告警与根因分析。

明确 P95 延迟的计算逻辑
在 PostgreSQL 中,慢查询延迟需基于真实执行耗时(total_time 或 mean_time,推荐用 pg_stat_statements 的 total_time / calls 得到平均单次耗时),再按 SQL 模板(queryid 或归一化 query)分组,最后取该模板下所有样本的 95 百分位值。Grafana 不支持原生 percentile_over_time 跨多维聚合,所以必须由 Prometheus 或直接由 PostgreSQL + pg_stat_statements + external metrics 配合完成计算。
推荐数据采集路径:pg_stat_statements + Exporter + Prometheus
确保已启用 pg_stat_statements 并配置合理(track = all,max = 10000,save = on)。使用 postgres_exporter(v0.12+)暴露指标 pg_stat_statements_total_time_ms 和 pg_stat_statements_calls。Prometheus 写入如下 recording rule:
- record: pgss:query:p95_avg_ms
expr: histogram_quantile(0.95, sum by (le, queryid) (rate(pg_stat_statements_total_time_ms_sum[1h]) / rate(pg_stat_statements_calls[1h]))) - 注意:需先用 pg_stat_statements_total_time_ms_sum 和 pg_stat_statements_calls 构建 per-query 平均耗时时间序列,再套 histogram_quantile(实际中常改用 quantile_over_time + 分桶近似或直接用 postgres_exporter 的 pg_stat_statements_mean_time_ms 指标做 quantile_over_time)
Grafana 告警规则写法(Prometheus 数据源)
在 Grafana 9+ 的 Alerting UI 或 prometheus.rules.yml 中定义:
- alert: PostgresSlowQueryP95High
expr: 1000 * quantile_over_time(0.95, pg_stat_statements_mean_time_ms{datname=~"prod.*"}[1h]) > 1500
for: 10m
labels:
severity: warning
annotations:
summary: "P95 slow query latency > 1.5s for 1h window"
description: "Top slow query template: {{ $labels.query }} (queryid={{ $labels.queryid }})" - 关键点:
– 乘以 1000 是因 pg_stat_statements_mean_time_ms 单位为秒,而 exporter 默认暴露为毫秒;务必核对实际指标单位
– 使用 quantile_over_time 替代 histogram_quantile,更适配非直方图指标
– datname 过滤生产库,避免测试库干扰
– 告警持续时间(for)设为 10 分钟,避免毛刺触发
增强可观测性:关联 SQL 文本与调用频次
纯延迟告警难定位根因。建议在告警 annotation 中补充:
– 实际慢 SQL 示例(用 pg_stat_statements_query_text 指标 join queryid)
– P95 对应的调用量(sum_over_time(pg_stat_statements_calls[1h]))
– 是否存在突增(对比前 7d 同一时段均值)
- 示例 annotation 补充项:
sql_sample: "{{ with (label_replace((pg_stat_statements_query_text{queryid=~\"{{ $labels.queryid }}\"}), \"query\", \"$1\", \"query\", \"(.{0,100}).*\")) }}{{ . | first | printf \"%s\" }}{{ end }}"
calls_1h: "{{ $value | printf \"%.0f\" }}" - 注:需在 postgres_exporter 启用 --extend.query-path 加载自定义 SQL 获取逻辑,或通过外部服务 API 关联 queryid → query text










