0

0

Linux服务器监控体系_指标与告警设计

冷漠man

冷漠man

发布时间:2026-03-09 10:05:26

|

458人浏览过

|

来源于php中文网

原创

linux服务器监控应围绕“可观测性三支柱”构建闭环:指标量化状态并发现异常,告警需可操作、低误报、带上下文;核心指标分层聚焦cpu、内存、磁盘i/o、网络、进程与服务;告警规则须分级收敛、绑定业务语义、附带上下文;采集宜轻量稳定,优选node exporter+自定义exporter;存储按规模选型,冷数据归档;上线后须做故障注入测试、告警回顾及监控自身健康度看板。

linux服务器监控体系_指标与告警设计

Linux服务器监控不是堆工具,而是围绕“可观测性三支柱”(指标、日志、追踪)构建闭环:指标用于量化状态、发现异常;告警是指标的策略化输出,必须可操作、低误报、有上下文。

核心监控指标:分层聚焦,拒绝堆砌

指标不在多,在关键、可解释、可归因。建议按系统层级收敛:

  • CPU:重点关注 cpu_usage_percent{mode="idle"} 的反向值(即非 idle)、load1 与 CPU 核数比值(>0.7 警示过载)、cpu_steal(云环境突增说明宿主机资源争抢)
  • 内存:区分 mem_used_percent(含 cache/buffer)和 mem_available_bytes(内核 3.14+ 提供真实可用量),警惕 swap_in/out 持续活跃(内存严重不足)
  • 磁盘 I/O:看 disk_io_time_ms(单设备每秒 I/O 等待毫秒数)、disk_io_wait_percent(I/O 等待占 CPU 时间比)、disk_used_percent(根分区 >90% 必须告警)
  • 网络:关注 net_bytes_sent/received(基线对比突增/突降)、net_drop_packets(持续丢包指向驱动、队列或网卡故障)、conn_established(连接数突变常关联业务异常)
  • 进程与服务:不监控“进程是否存在”,而监控 process_cpu_seconds_totalprocess_resident_memory_bytes、以及服务端口的 probe_success{target=":8080"}(黑盒探测)

告警规则设计:从“触发即告警”到“值得介入”

90% 的无效告警源于规则未绑定业务语义和处置路径。关键原则:

Julius AI
Julius AI

Julius AI是一款功能强大的AI数据分析工具,可以快速分析和可视化复杂数据。

下载
  • 分级收敛:P0(立即响应,如 root 分区满、核心服务不可达)、P1(2 小时内处理,如 CPU 持续 >95% 超 10 分钟)、P2(记录观察,如 load1 > 核数但
  • 消除抖动:所有阈值类告警必须加 for 持续时间(如 cpu_usage_percent > 90 for 5m),避免瞬时毛刺;用 rate()irate() 替代原始计数器(如错误率用 rate(http_requests_total{status=~"5.."}[5m])
  • 附带上下文:告警信息中必须包含主机名、IP、关键指标当前值、最近 1 小时趋势链接(如 Grafana 面板跳转 URL)、初步排查指令(如 df -h / && iostat -x 1 3

数据采集与存储:轻量、稳定、可扩展

采集层决定监控生命力,避免“重客户端、弱服务端”陷阱:

  • Agent 选型:Prometheus Node Exporter(标准指标全、资源占用低) + 自定义 exporter(如业务埋点用 Python client lib);避免全量采集,通过 collector. 参数关闭不用项(如 --no-collector.wifi
  • 抓取配置:对高频率指标(如网络包计数)设长间隔(scrape_interval: 30s),对关键状态(如服务存活)设短间隔(10s)并配 scrape_timeout 略小于间隔
  • 存储优化:Prometheus 本地存储建议单实例 ≤ 1TB;超规模时用 Thanos 或 VictoriaMetrics;冷数据归档至对象存储(S3/MinIO),保留 30 天高频指标 + 180 天聚合指标

验证与演进:让监控真正“活”起来

上线后必须做三件事:

  • 故障注入测试:手动触发 OOM、填满磁盘、kill 关键进程,验证告警是否准时到达、内容是否可指导操作
  • 告警回顾机制:每周检查告警记录,标记“误报”“漏报”“无响应”,每月更新规则(如调整阈值、合并相似告警、下线失效规则)
  • 指标健康度看板:建一个独立面板,展示各主机采集成功率、指标延迟(prometheus_target_sync_length_seconds)、告警静默率,把监控系统自身也纳入监控

不复杂但容易忽略

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
堆和栈的区别
堆和栈的区别

堆和栈的区别:1、内存分配方式不同;2、大小不同;3、数据访问方式不同;4、数据的生命周期。本专题为大家提供堆和栈的区别的相关的文章、下载、课程内容,供大家免费下载体验。

438

2023.07.18

堆和栈区别
堆和栈区别

堆(Heap)和栈(Stack)是计算机中两种常见的内存分配机制。它们在内存管理的方式、分配方式以及使用场景上有很大的区别。本文将详细介绍堆和栈的特点、区别以及各自的使用场景。php中文网给大家带来了相关的教程以及文章欢迎大家前来学习阅读。

601

2023.08.10

磁盘配额是什么
磁盘配额是什么

磁盘配额是计算机中指定磁盘的储存限制,就是管理员可以为用户所能使用的磁盘空间进行配额限制,每一用户只能使用最大配额范围内的磁盘空间。php中文网为大家提供各种磁盘配额相关的内容,教程,供大家免费下载安装。

1564

2023.06.21

如何安装LINUX
如何安装LINUX

本站专题提供如何安装LINUX的相关教程文章,还有相关的下载、课程,大家可以免费体验。

716

2023.06.29

linux find
linux find

find是linux命令,它将档案系统内符合 expression 的档案列出来。可以指要档案的名称、类别、时间、大小、权限等不同资讯的组合,只有完全相符的才会被列出来。find根据下列规则判断 path 和 expression,在命令列上第一个 - ( ) , ! 之前的部分为 path,之后的是 expression。还有指DOS 命令 find,Excel 函数 find等。本站专题提供linux find相关教程文章,还有相关

300

2023.06.30

linux修改文件名
linux修改文件名

本专题为大家提供linux修改文件名相关的文章,这些文章可以帮助用户快速轻松地完成文件名的修改工作,大家可以免费体验。

799

2023.07.05

linux系统安装教程
linux系统安装教程

linux系统是一种可以免费使用,自由传播,多用户、多任务、多线程、多CPU的操作系统。本专题提供linux系统安装教程相关的文章,大家可以免费体验。

586

2023.07.06

linux查看文件夹大小
linux查看文件夹大小

Linux是一种自由和开放源码的类Unix操作系统,存在着许多不同的Linux版本,但它们都使用了Linux内核。Linux可安装在各种计算机硬件设备中,比如手机、平板电脑、路由器、视频游戏控制台、台式计算机、大型机和超级计算机。linux怎么查看文件夹大小呢?php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

570

2023.07.20

JavaScript浏览器渲染机制与前端性能优化实践
JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开,系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理,以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例,帮助开发者理解浏览器底层工作原理,并掌握提升网页加载速度与交互体验的实用技巧。

59

2026.03.06

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
PostgreSQL 教程
PostgreSQL 教程

共48课时 | 10.4万人学习

Git 教程
Git 教程

共21课时 | 4.1万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号