0

0

Linux磁盘IO抖动怎么分析_iowait指标排查思路【教程】

舞夢輝影

舞夢輝影

发布时间:2025-12-22 18:09:08

|

766人浏览过

|

来源于php中文网

原创

Linux磁盘IO抖动主因是IO请求排队、调度不当或应用异常,非必为磁盘故障;需用vmstat、mpstat、pidstat、iotop、iostat等工具定位进程、IO模式及底层配置问题。

linux磁盘io抖动怎么分析_iowait指标排查思路【教程】

Linux磁盘IO抖动通常表现为系统响应变慢、服务延迟升高、iowait值持续偏高(比如 >20%),但不一定是磁盘真坏了——更可能是IO请求排队过长、调度策略不当、应用行为异常或存储层瓶颈。关键不是盯着iowait本身,而是顺着它定位“谁在发什么IO、发到哪里、为什么卡住”。

iowait高 ≠ 磁盘慢,先确认是否真被IO拖累

iowait是CPU空闲且等待IO完成的时间占比,它只反映“CPU在等”,不说明IO慢的根源。可能情况包括:

  • CPU空闲多、IO请求少但单次极慢(如机械盘随机读+高延迟)
  • CPU忙不过来,根本没空进iowait(此时iowait反而低,但IO已堆积)
  • IO请求被内核block层或设备驱动阻塞(如multipath路径切换、NVMe队列满)

建议第一步用 vmstat 1mpstat -P ALL 1 对比:若 %iowait 高 + %idle 也高 → 确实是IO等待主导;若 %iowait 低但 %wait(RHEL8+/proc/stat新增)或 r/b (vmstat 中 blocked tasks) 高 → 说明有大量进程处于不可中断睡眠(D状态),需查 block I/O

定位IO来源:按进程/线程粒度抓“谁在狂刷盘”

pidstat -d 1 实时看每个进程的读写KB/s、IO等待时间(%io)和每秒IO次数(tps)。重点关注:

  • WRITE_KB 持续 > 50MB/s 且 %io > 30% 的进程
  • 频繁出现 “D” 状态的进程(ps aux | grep " D ")——它们正卡在IO路径上
  • 同一进程多个线程IO量差异极大,可能是单线程同步刷日志或fsync滥用

进一步用 iotop -oPa(需root)查看实时线程级IO,结合 lsof -p PID 查它打开的文件和设备,判断是普通文件、数据库WAL、容器卷还是tmpfs-backed文件。

Codiga
Codiga

可自定义的静态代码分析检测工具

下载

分析IO模式:顺序?随机?大块?小块?同步还是异步?

iostat -x 1 是核心工具,重点观察:

  • r/s, w/s:IOPS高低决定是不是高并发小IO(如数据库事务)
  • r_await, w_await:若 >10ms(SSD)或 >20ms(NVMe)且远高于 svctm(已弃用,但 await - svctm ≈ 排队时间),说明IO在队列中积压
  • avgqu-sz:平均队列长度 > 1 表示有排队;>4 常见于饱和设备
  • %util:接近100%但 await 不高 → 设备真忙满;%util很低但 await 很高 → 可能是驱动/队列/锁问题(如 ext4 journal 锁争用、XFS log stall)

配合 blktrace + blkparse 可深入分析IO下发路径(bio → request → queue → device),尤其适合排查“IO明明不多,却卡死”的场景。

检查底层路径与配置:别让软件栈自己绊倒自己

很多IO抖动来自配置失当或路径异常:

  • 检查 /sys/block/*/queue/scheduler:CFQ(旧版)易导致延迟抖动,SSD/NVMe 应设为 nonekyber;HDD 可试 bfq
  • 确认 /sys/block/*/queue/nr_requests 是否过小(默认128常不够),高IOPS场景可调至256~512
  • 运行 lsblk -Tcat /proc/diskstats,对比 major:minor 设备号,排除LVM thin pool耗尽、dm-crypt加密开销、快照链过长等问题
  • 云环境务必查 cloud-init 日志dmesg | grep -i "nvme\|io\|timeout",常见于EBS吞吐突降、阿里云云盘IOPS配额超限、腾讯云CBS突发IO耗尽后限速

不复杂但容易忽略。

相关专题

更多
堆和栈的区别
堆和栈的区别

堆和栈的区别:1、内存分配方式不同;2、大小不同;3、数据访问方式不同;4、数据的生命周期。本专题为大家提供堆和栈的区别的相关的文章、下载、课程内容,供大家免费下载体验。

388

2023.07.18

堆和栈区别
堆和栈区别

堆(Heap)和栈(Stack)是计算机中两种常见的内存分配机制。它们在内存管理的方式、分配方式以及使用场景上有很大的区别。本文将详细介绍堆和栈的特点、区别以及各自的使用场景。php中文网给大家带来了相关的教程以及文章欢迎大家前来学习阅读。

571

2023.08.10

堆和栈的区别
堆和栈的区别

堆和栈的区别:1、内存分配方式不同;2、大小不同;3、数据访问方式不同;4、数据的生命周期。本专题为大家提供堆和栈的区别的相关的文章、下载、课程内容,供大家免费下载体验。

388

2023.07.18

堆和栈区别
堆和栈区别

堆(Heap)和栈(Stack)是计算机中两种常见的内存分配机制。它们在内存管理的方式、分配方式以及使用场景上有很大的区别。本文将详细介绍堆和栈的特点、区别以及各自的使用场景。php中文网给大家带来了相关的教程以及文章欢迎大家前来学习阅读。

571

2023.08.10

线程和进程的区别
线程和进程的区别

线程和进程的区别:线程是进程的一部分,用于实现并发和并行操作,而线程共享进程的资源,通信更方便快捷,切换开销较小。本专题为大家提供线程和进程区别相关的各种文章、以及下载和课程。

480

2023.08.10

数据库三范式
数据库三范式

数据库三范式是一种设计规范,用于规范化关系型数据库中的数据结构,它通过消除冗余数据、提高数据库性能和数据一致性,提供了一种有效的数据库设计方法。本专题提供数据库三范式相关的文章、下载和课程。

345

2023.06.29

如何删除数据库
如何删除数据库

删除数据库是指在MySQL中完全移除一个数据库及其所包含的所有数据和结构,作用包括:1、释放存储空间;2、确保数据的安全性;3、提高数据库的整体性能,加速查询和操作的执行速度。尽管删除数据库具有一些好处,但在执行任何删除操作之前,务必谨慎操作,并备份重要的数据。删除数据库将永久性地删除所有相关数据和结构,无法回滚。

2074

2023.08.14

vb怎么连接数据库
vb怎么连接数据库

在VB中,连接数据库通常使用ADO(ActiveX 数据对象)或 DAO(Data Access Objects)这两个技术来实现:1、引入ADO库;2、创建ADO连接对象;3、配置连接字符串;4、打开连接;5、执行SQL语句;6、处理查询结果;7、关闭连接即可。

347

2023.08.31

Golang gRPC 服务开发与Protobuf实战
Golang gRPC 服务开发与Protobuf实战

本专题系统讲解 Golang 在 gRPC 服务开发中的完整实践,涵盖 Protobuf 定义与代码生成、gRPC 服务端与客户端实现、流式 RPC(Unary/Server/Client/Bidirectional)、错误处理、拦截器、中间件以及与 HTTP/REST 的对接方案。通过实际案例,帮助学习者掌握 使用 Go 构建高性能、强类型、可扩展的 RPC 服务体系,适用于微服务与内部系统通信场景。

0

2026.01.15

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
PostgreSQL 教程
PostgreSQL 教程

共48课时 | 7.2万人学习

Git 教程
Git 教程

共21课时 | 2.7万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号