Linux 系统卡顿原因排查技巧

冷漠man

发布时间：2026-02-17 15:53:02

767人浏览过

来源于php中文网

原创

top中%cpu虚高因采样周期平滑和d状态进程不计，需调短刷新、查i/o与内存瓶颈；iostat/iotop定位磁盘争用；dmesg+meminfo排查oom真因；ss替代netstat抓网络队列与重传。

linux 系统卡顿原因排查技巧

top 命令里 %CPU 虚高，实际负载不高？看 `top` 的默认排序和采样逻辑

Linux 卡顿但 top 显示 CPU 使用率不高，常见原因是它默认按 CPU 占用实时排序，而卡顿往往来自 I/O 等待或内存压力，top 不直接暴露这些瓶颈。

top 默认刷新周期是 3 秒，短时突发卡顿容易被平滑掉；按 s 键可临时设为 1 秒甚至 0.5 秒观察瞬时峰值
按 1 键展开所有 CPU 核心，避免单核打满但整体平均值偏低的误判
按 Shift + M 切换到内存占用排序，RES 高但 %MEM 持续超 80% 的进程可能触发 OOM Killer 或频繁 swap
注意 %CPU 列实际是“自上次刷新以来”的占比，不是持续占用率；如果进程处于 D（不可中断睡眠）状态，它不计入 CPU 使用率，但正在等磁盘或锁——这才是真卡点

卡在读写磁盘？用 `iostat` 和 `iotop` 区分设备级和进程级 I/O

iostat -x 1 看设备层面是否饱和，iotop 定位具体哪个进程在狂刷磁盘；两者必须配合，只看一个容易误判。

Heeyo

Heeyo：AI儿童启蒙陪伴师，风靡于硅谷的儿童AI导师和玩伴

下载

iostat -x 1 中重点关注 %util（接近 100% 表示设备忙）、await（平均 I/O 等待毫秒数，>10ms 就值得查）、r/s 和 w/s 是否异常突增
iotop 默认不显示线程，加 -P 参数才能看到每个线程的真实 I/O，尤其对 Java 应用有用——GC 日志刷盘、log4j 异步队列溢出都可能表现为单个 JVM 进程下多个线程争抢 write
SSD 上 %util 长期 100% 不一定代表磁盘瓶颈，可能是队列深度压满；此时要看 avgqu-sz（平均队列长度），>10 就说明请求在排队
别信 df -h ——空间够不代表性能好；xfs_info /mount/point 或 tune2fs -l /dev/sdX1 查文件系统挂载参数，barrier=1 或未启用 noatime 在高频小文件场景会拖慢明显

`dmesg` 报 `Out of memory: Kill process`？先确认是不是真的内存不足

OOM Killer 日志出现不等于物理内存耗尽，更可能是内核认为某个内存域（如 DMA32）无法分配连续页，或者 cgroup 限额被突破。

运行 dmesg -T | grep -i "killed process" 后，立刻跟 cat /proc/meminfo，重点看 MemAvailable（不是 MemFree）——若该值仍 >500MB，大概率是 cgroup 限制或 slab 泄漏
检查 /sys/fs/cgroup/memory/ 下各子目录的 memory.limit_in_bytes 和 memory.usage_in_bytes，Docker 容器或 systemd service 都可能静默设了内存上限
slabtop 看 Active / Total 比例，若 size-4096 或 dentry 类目占总 slab 超 60%，说明内核缓存没及时回收，常见于大量小文件操作后未 sync
某些驱动（如老版本 NVIDIA GPU 驱动）会锁定大量内存进显存，nvidia-smi -q -d MEMORY 和 cat /proc/driver/nvidia/params | grep -i "lock" 可交叉验证

网络相关卡顿？`ss` 比 `netstat` 更准，且要盯住重传和连接队列

网络延迟高或连接超时，往往不是带宽问题，而是本地 socket 队列堆积或 TCP 重传异常，ss 能直接暴露这些细节。

ss -i 显示每个连接的 TCP 信息，重点关注 retrans（重传次数）、rcv_rtt（接收端 RTT）、q 字段（如 q:0 表示发送队列空，q:1234 表示有数据待发）
ss -s 看全局 socket 统计，若 tcp 行中 inuse 高但 orphan（无应用关联的连接）也高，说明应用没正确 close，TIME_WAIT 泛滥或连接池泄漏
ss -ltnp 查监听端口，对比 netstat -tulnp，若后者卡住或报 can't identify protocol，说明 procfs 权限或内核模块异常，ss 更轻量可靠
检查 /proc/sys/net/ipv4/tcp_retries2，默认值 15 意味着重传约 15 分钟才断连；若业务要求快速失败，可调低到 3~5，但需同步调整应用层超时逻辑

事情说清了就结束。真正难的不是找到哪个命令，而是卡顿时你敢不敢停掉监控工具本身——它们自己也可能吃光 CPU 或填满磁盘。

Linux Docker 镜像管理与优化

Linux 容器持久化存储管理方法

Linux 单点故障的识别与规避

Linux ethtool -S 的 NIC 统计计数器与 drop / error 排查流程

Linux GlusterFS 分布式存储优化

相关专题

堆和栈的区别

堆和栈的区别：1、内存分配方式不同；2、大小不同；3、数据访问方式不同；4、数据的生命周期。本专题为大家提供堆和栈的区别的相关的文章、下载、课程内容，供大家免费下载体验。

418

2023.07.18

堆和栈区别

堆(Heap)和栈(Stack)是计算机中两种常见的内存分配机制。它们在内存管理的方式、分配方式以及使用场景上有很大的区别。本文将详细介绍堆和栈的特点、区别以及各自的使用场景。php中文网给大家带来了相关的教程以及文章欢迎大家前来学习阅读。

593

2023.08.10

线程和进程的区别

线程和进程的区别：线程是进程的一部分，用于实现并发和并行操作，而线程共享进程的资源，通信更方便快捷，切换开销较小。本专题为大家提供线程和进程区别相关的各种文章、以及下载和课程。

675

2023.08.10

k8s和docker区别

k8s和docker区别有抽象层次不同、管理范围不同、功能不同、应用程序生命周期管理不同、缩放能力不同、高可用性等等区别。本专题为大家提供k8s和docker区别相关的各种文章、以及下载和课程。

265

2023.07.24

docker进入容器的方法有哪些

docker进入容器的方法：1. Docker exec；2. Docker attach；3. Docker run --interactive --tty；4. Docker ps -a；5. 使用 Docker Compose。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

512

2024.04.08

docker容器无法访问外部网络怎么办

docker 容器无法访问外部网络的原因和解决方法：配置 nat 端口映射以将容器端口映射到主机端口。根据主机兼容性选择正确的网络驱动（如 host 或 overlay）。允许容器端口通过主机的防火墙。配置容器的正确 dns 服务器。选择正确的容器网络模式。排除主机网络问题，如防火墙或连接问题。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

411

2024.04.08