SQL Grafana 的数据库慢查询 dashboard 与告警规则设计

舞姬之光

发布时间：2026-02-22 21:11:03

759人浏览过

来源于php中文网

原创

应优先用 performance_schema.events_statements_summary_by_digest 替代 slow_log 表，通过 digest_text 归一化 sql、avg_timer_wait 计算平均耗时、count_star 统计频次，并结合 avg_over_time() 告警与正确分母计算慢查占比，确保指标可溯源。

sql grafana 的数据库慢查询 dashboard 与告警规则设计

如何让 Grafana 从 MySQL 慢查询日志里实时拉出有效指标

直接读 slow_log 表或解析日志文件是常见做法，但容易卡在权限、格式和延迟上。MySQL 5.7+ 默认关闭 slow_query_log，且 log_output='TABLE' 时，mysql.slow_log 是 CSV 引擎表，不支持索引 —— 查询一多就超时。

先确认开启方式：SET GLOBAL slow_query_log = ON，并设 long_query_time = 1（别用 0，会吞掉所有查询）
log_output 推荐设为 'FILE'，再用 pt-query-digest 定期解析日志生成汇总表（如 slow_summary_by_digest），Grafana 只查这张表
避免直连 mysql.slow_log：它默认无主键、无索引、每行都是 TEXT 字段，Grafana 做 GROUP BY 或时间范围筛选时极易 OOM
如果必须用 FILE 输出，确保日志路径对 MySQL 用户可读，且 Grafana 数据源用户有对应文件系统访问权限（比如用 Telegraf + exec 插件中转）

Grafana 中怎么写 SQL 查询才能让慢查询 TopN 不失真

“最慢的 10 条”和“出现最多的 10 类”是两类不同需求，SQL 写法稍错，图表就完全跑偏。尤其当 sql_text 被截断、参数被脱敏后，靠字符串匹配去聚合会漏掉同构查询。

用 DIGEST_TEXT（来自 performance_schema.events_statements_summary_by_digest）代替原始 sql_text：它自动归一化参数，SELECT * FROM users WHERE id = ? 和 SELECT * FROM users WHERE id = 123 算同一类
TopN 响应时间：查 AVG_TIMER_WAIT / 1000000000000（转成秒），排序前加 HAVING COUNT_STAR > 5 过滤偶发噪声
TopN 执行频次：用 COUNT_STAR，但注意 first_seen/last_seen 时间戳要参与过滤，否则历史冷查询会挤掉近期热点
别在 Grafana 查询里用 LIKE '%WHERE%' 去筛条件 —— DIGEST_TEXT 已标准化，直接分组即可

告警规则里为什么 avg_over_time() 比 rate() 更适合慢查询触发

慢查询不是持续发生的流指标，而是离散事件。用 rate() 会把单次 5 秒查询摊薄成每秒 0.001 次，根本触不到阈值；而 avg_over_time() 能真实反映窗口内平均耗时是否越界。

星绘

豆包旗下 AI 写真、P 图、换装和视频生成

下载

推荐表达式：avg_over_time(mysql_slow_queries_duration_seconds[15m]) > 2，表示过去 15 分钟平均慢查询耗时超 2 秒
避免用 count_over_time() 直接数条数 —— 如果某分钟突增 20 条 1.1 秒查询，平均仍低于 2 秒，但已暴露应用层压力，此时应结合 max_over_time() 补充告警
MySQL 自身不暴露原生 Prometheus 指标，需通过 mysqld_exporter 采集。确认它启用了 --collect.global_status --collect.info_schema.processlist，否则 mysql_slow_queries_duration_seconds 根本不存在
告警 label 别只写 instance，加上 digest_text（需 exporter 支持 --collect.perf_schema.events_statements_digests）才能定位到具体 SQL 模板

为什么 dashboard 里 “慢查询占比” 曲线总跳变、不可信

分母选错是主因。用 com_select + com_update + ... 当总查询量，漏掉了 prepared statement、存储过程调用、甚至 ping 请求；更糟的是，这些状态变量是全局累计值，差值计算受服务重启干扰。

正确分母：用 performance_schema.events_statements_summary_global_by_event_name 中的 COUNT_STAR 总和，它包含所有语句类型，且支持按时间窗口重置
分子：同源表中 events_statements_summary_by_digest 里 TIMER_WAIT > 1000000000000（1 秒）的 COUNT_STAR 求和
别在 Grafana 里做除法运算 —— 先在 SQL 层算好 ROUND(100.0 * slow_cnt / total_cnt, 2)，否则浮点精度和空值会让曲线断崖式下跌
如果用 mysqld_exporter，它的 mysql_global_status_questions 是个近似替代，但要注意它不含 COM_PING 和 COM_STMT_PREPARE，误差可能达 15%+

慢查询监控真正难的不是画图，而是让每一行数据都经得起反向溯源 —— 你点开告警里的那条 SQL，得能立刻在 performance_schema 里找到对应 digest、执行计划、锁等待链。这要求从日志采集、指标建模到查询归一，每层都对齐语义，而不是拼凑出一个能动的 dashboard 就算完事。

相关标签:

sql mysql select 字符串事件 table 数据库 prometheus grafana

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：SQL PostgreSQL autovacuum 的 scale_factor 与 threshold 调优公式下一篇：暂无

作者最新文章

天猫魔屏m2常见故障有哪些？天猫魔屏M2详细介绍

2026-02-21 20:24

edge网页版入口网址是多少 Edge是否支持纯网页版解析

2026-02-22 01:01

GitHub 项目怎么复现？项目复现流程与注意事项

2026-02-22 02:23

腾讯会议app电脑版官方下载地址

2026-02-22 05:01

GitHub 仓库会存满吗？容量计算与管理建议说明

2026-02-22 08:20

京东官网oppo手机报价京东平台OPPO手机实时价格查询

2026-02-22 08:26

Python 异步 IO 与同步 IO 混合调用的风险

2026-02-22 12:47

windows cmd下载文件 curl与bitsadmin命令示例

2026-02-22 12:55

腾讯会议视频可以开启美颜吗

2026-02-22 13:50

Python 在容器环境中的运行注意事项

2026-02-22 13:52

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

AI 图片处理图片拼接

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

数据分析工具有哪些

数据分析工具有Excel、SQL、Python、R、Tableau、Power BI、SAS、SPSS和MATLAB等。详细介绍：1、Excel，具有强大的计算和数据处理功能；2、SQL，可以进行数据查询、过滤、排序、聚合等操作；3、Python，拥有丰富的数据分析库；4、R，拥有丰富的统计分析库和图形库；5、Tableau，提供了直观易用的用户界面等等。

1006

2023.10.12