大量脏页导致写入卡顿但 iostat 看不出哪个盘特别忙的排查

冷炫風刃

发布时间：2026-01-19 18:07:17

666人浏览过

来源于php中文网

原创

脏页堆积导致写入卡顿但iostat显示磁盘正常，说明问题在内核页缓存回写调度或存储栈上层阻塞，需通过/proc/meminfo、回写线程stack、/proc/diskstats及iotop等深入定位根因。

大量脏页导致写入卡顿但 iostat 看不出哪个盘特别忙的排查

脏页堆积引发写入卡顿，但 iostat 显示各磁盘 I/O 利用率（%util、await、r/s、w/s）都正常——这说明问题不在设备层吞吐瓶颈，而在内核页缓存回写调度或存储栈上层阻塞。关键要跳出“看 iostat 找忙盘”的惯性，转向内存子系统和块层队列行为分析。

确认脏页规模和回写压力

先验证是否真由脏页驱动：运行 cat /proc/meminfo | grep -E "Dirty|Writeback|Bounce"，重点关注：

Dirty：当前未写回的脏页大小（KB），持续 > 10% 的可用内存（MemFree + Cached + SReclaimable）就属异常
Writeback：正在被 pdflush/kswapd 写出的页数，若长期 > 0 且 Dirty 不降，说明回写线程卡住
DirtyRatio / DirtyBackgroundRatio（查 /proc/sys/vm/dirty_*）：若 Dirty 接近 DirtyRatio（默认 20%），内核会同步阻塞 write() 系统调用，直接导致应用卡顿

检查回写线程状态和阻塞点

脏页不落盘，往往不是磁盘慢，而是回写路径被阻塞：

用 ps aux | grep "[k]worker.*writeback" 或 pgrep -f "kworker.*writeback" 找出回写工作线程 PID
对 PID 执行 cat /proc/$PID/stack，看是否卡在：
`blk_mq_get_tag` → `sbitmap_queue_wait`（块层 tag 耗尽，常因 NVMe 多队列或 SCSI 中断风暴）
`ext4_writepages` → `ext4_io_submit` → `submit_bio`（文件系统层提交 BIO 卡住）
`wait_on_page_writeback`（等待某页写回完成，可能该页所属 inode 正被锁住）
同时执行 cat /proc/diskstats，对比各设备的 in_flight 字段（第10列）：若某盘 in_flight 持续 > 0 但 iostat 无 I/O，说明请求卡在队列里没下发，而非设备处理慢

定位具体阻塞设备或路径

iostat “不忙”可能是采样粒度太粗或统计口径偏差，需更底层观测：

百度MCP广场

探索海量可用的MCP Servers

下载

用 iotop -o -a（-o 只显示有 I/O 的进程，-a 累计 I/O）看哪些进程在持续 submit bio，尤其是 kswapd、ksmd、pdflush 或业务进程自身
启用 block trace：echo 1 > /sys/block/$DEV/queue/iostats（确保开启），再用 cat /sys/block/$DEV/stat 查看更细粒度：第9列（# of reads merged）、第13列（# of writes merged）突增，说明 bio 合并失败，常因文件系统碎片或块层限流；第10列（# of I/Os currently in progress）高而第11列（time in queue）低，说明请求在队列中等待调度
若使用 LVM 或 mdadm，检查底层物理盘：lvs -o +stripes,stripesize 或 mdadm -D /dev/mdX，条带配置不合理（如 stripe size 过小）会导致大量小写无法合并，触发高频脏页回写

临时缓解与根因收敛

应急可降低脏页触发阈值，避免同步阻塞：

echo 5 > /proc/sys/vm/dirty_ratio（激进，慎用）
echo 2 > /proc/sys/vm/dirty_background_ratio（让后台回写更早启动）
echo 1000 > /proc/sys/vm/dirty_expire_centisecs（缩短脏页存活时间）

但根本解决需结合 stack 和 iostats 定位到具体模块：是 ext4 journal 阻塞？NVMe 控制器中断丢失？还是 cgroup blkio 限流导致队列积压？找到 stack 中最深的非通用函数（如 nvme_queue_rq、dm_table_presuspend_targets），即为根因所在模块。

Linux如何安装并配置Node环境_LinuxNodejs部署完整指南

Linux 安全：如何使用 kube-bench 检查 Kubernetes 安全基线

使用宝塔在服务器上部署 Vue + Node 项目全流程

【玩转 Cloud Studio】以 Rust 为例定制自己的开发环境

十一、可观测性——你的应用健康吗

相关标签:

node 栈 ai ios pdf echo 栈堆线程 lvs

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：K3s agent 心跳丢失导致节点 NotReady 但网络其实通的排查下一篇：暂无

作者最新文章

京东大药房自营店的药是真的吗？京东自营是真假参半吗

2026-01-19 16:25

edge浏览器免费吗？Microsoft Edge完全免费官方浏览器无广告收费功能说明

2026-01-19 16:27

SQL 查询慢一定是没索引吗？

2026-01-19 16:31

SQL 如何计算累计和与累计占比？

2026-01-19 16:40

HTML input type="date" 在不同浏览器显示差异巨大怎么统一？

2026-01-19 16:43

毒蘑菇测试最好的手机有哪些？旗舰级手机如iPhone16 Pro Max跑毒蘑菇丝滑表现排行

2026-01-19 17:16

内核 panic 生成 vmcore 后如何用 crash 提取调用栈关键信息

2026-01-19 17:22

毒蘑菇性能测试网页入口位置？毒蘑菇测试网页入口cznull.github.io/vsbm直接点击启动

2026-01-19 17:23

京东全站营销怎么开通？京东推广怎么做

2026-01-19 17:27

Python 为什么没有 switch？match 出现前后的对比

2026-01-19 17:29

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

堆和栈的区别

堆和栈的区别：1、内存分配方式不同；2、大小不同；3、数据访问方式不同；4、数据的生命周期。本专题为大家提供堆和栈的区别的相关的文章、下载、课程内容，供大家免费下载体验。

392

2023.07.18

堆和栈区别

堆(Heap)和栈(Stack)是计算机中两种常见的内存分配机制。它们在内存管理的方式、分配方式以及使用场景上有很大的区别。本文将详细介绍堆和栈的特点、区别以及各自的使用场景。php中文网给大家带来了相关的教程以及文章欢迎大家前来学习阅读。

572

2023.08.10

堆和栈的区别

392

2023.07.18

堆和栈区别

572

2023.08.10

线程和进程的区别

线程和进程的区别：线程是进程的一部分，用于实现并发和并行操作，而线程共享进程的资源，通信更方便快捷，切换开销较小。本专题为大家提供线程和进程区别相关的各种文章、以及下载和课程。

481

2023.08.10

PHP WebSocket 实时通信开发

本专题系统讲解 PHP 在实时通信与长连接场景中的应用实践，涵盖 WebSocket 协议原理、服务端连接管理、消息推送机制、心跳检测、断线重连以及与前端的实时交互实现。通过聊天系统、实时通知等案例，帮助开发者掌握使用 PHP 构建实时通信与推送服务的完整开发流程，适用于即时消息与高互动性应用场景。

2026.01.19