Linux磁盘监控核心是精准告警与闭环处置:聚焦根分区、关键挂载点使用率≥85%、inode≥90%、/boot≥70%及24小时增长突增等真实风险,采用df轻量采集+du定位大目录,告警需带趋势、TOP3目录和可执行清理命令,并配套工单、自动校验与月度分析闭环。

Linux磁盘空间监控的核心是及时发现容量异常增长,避免因根分区满导致系统僵死或服务中断。关键不在于“多高频率”,而在于“告警是否精准、可操作、能闭环”。
监控指标要聚焦真实风险点
仅看Usage%容易误报(如大量小文件占inode但空间余量大),也容易漏报(如/proc或/dev/shm等tmpfs挂载点usage%常为100%,但实际无风险)。应组合判断:
- 根分区(/)和关键业务挂载点(如/data、/var/log)的磁盘使用率 ≥ 85%——需告警,≥95%需紧急干预
- inode使用率 ≥ 90%——尤其对日志类、容器类场景,预示新建文件失败风险
- /boot分区使用率 ≥ 70%——旧内核未清理可能阻断后续升级
- 过去24小时磁盘增长速率突增(如单日增长>5GB)——比静态阈值更能捕捉异常写入行为
采集方式选轻量、低侵入的方案
避免用复杂Agent加重系统负担。推荐分层组合:
-
基础层:每5分钟执行一次
df -hP+df -iP,输出重定向到临时文件,再由采集器读取——无进程常驻、无依赖、兼容所有发行版 -
增强层:对重点目录(如/var/log、/tmp)用
du -sh */ 2>/dev/null | sort -hr | head -5定位大目录,每天凌晨执行一次,结果存档供回溯 - 规避陷阱:不用
statfs()直接调用或inotify监听文件变化——实时性要求不高,且易被海量小文件打垮
告警策略必须带上下文和处置指引
一条有效告警不是“/dev/sda1 使用率92%”,而是:
- 自动附带最近3次采集的趋势(如:87% → 90% → 92%)
- 列出该挂载点下TOP3占用目录(如:
/var/log/journal: 4.2G) - 给出可直接复制执行的清理建议(如:
journalctl --disk-usage;journalctl --vacuum-size=200M) - 区分等级:85–90%发企业微信/钉钉提醒;90–95%电话+短信;≥95%自动触发清理脚本(需预审白名单)
闭环机制比告警本身更重要
没有处置反馈的告警会快速失效。必须配套:
- 告警触发后自动生成工单编号,并记录首次响应时间
- 清理操作后10分钟内,自动校验空间是否回落至80%以下,否则升级告警
- 每月生成《磁盘增长TOP5目录》报告,推动业务方优化日志轮转或归档策略
- 对反复告警的挂载点(如每周超阈值≥2次),自动标记为“需扩容”并加入资源评估队列










