系统负载需结合cpu核心数判断是否正常:15分钟负载÷核心数≤0.7为空闲,0.7~1.0为健康,≥1.0需关注,>1.2建议排查,远大于1.5则存在瓶颈。

直接看 uptime 输出的最后三个数字,就是系统负载(load average),但光看数值没用,得结合 CPU 核心数一起判断是否正常。
uptime 输出各字段含义
uptime 一行输出通常长这样:
它依次表示:
-
当前时间:16:54:36,和
date命令一致 - 系统已运行时长:up 82 days, 53 min,说明这台机器连续运行了 82 天多,没重启过
- 当前登录用户数:3 users,包括所有终端、SSH 等会话,不区分本地或远程
- 平均负载:1.02, 1.37, 1.90 —— 分别是过去 1 分钟、5 分钟、15 分钟的系统平均负载值
load average 到底代表什么
平均负载不是 CPU 使用率,而是单位时间内处于以下两种状态的进程平均数量:
- 可运行状态(正在用或等待 CPU)
- 不可中断睡眠状态(D 状态,通常在等磁盘 IO)
简单说,它反映的是“排队等资源”的进程数。数值为 1.00 并不意味着 CPU 占用 100%,而更像“桥上刚好满负荷跑车”——对单核 CPU 来说,1.00 是临界点;对 8 核机器来说,理想上限其实是 8.00 左右。
怎么判断负载是否过高
关键步骤是:先查 CPU 总核心数,再算每个核心分摊多少负载。
- 查逻辑核心总数:
grep -c 'model name' /proc/cpuinfo - 算饱和度:用 15 分钟负载 ÷ CPU 核心数(最稳,波动小)
- 参考标准(通用经验):
- 结果 ≤ 0.7:系统较空闲,有余力加服务
- 0.7 < 结果 < 1.0:负载适中,运行健康
- ≥ 1.0:开始排队,需关注;持续 > 1.2 建议排查
- 若结果远大于 1.5(如 4 核机 load15=8.0),大概率存在瓶颈
例如:一台 4 核服务器,uptime 显示 load average: 3.2, 3.8, 4.1,那么 4.1 ÷ 4 = 1.025 —— 接近满载,但尚未严重过载;若值是 12.0,则饱和度达 3.0,明显异常。
三个负载值怎么配合看趋势
1 分钟、5 分钟、15 分钟这三个数构成一个“时间滑窗”,能看出负载变化方向:
-
1.90, 1.37, 1.02(递减):负载在快速回落,可能是临时高峰刚过 -
0.85, 1.20, 1.75(递增):负载持续上升,问题可能正在发酵 -
2.10, 2.08, 2.12(平稳高位):系统长期高负荷,需深入查资源争用
日常巡检优先盯 15 分钟值;突发响应时重点看 1 分钟值是否突增,并对比其他两个值确认是否偶发。










