ksoftirqd 高占用但 net_rx 正常的 block softirq / timer softirq 排查

冷漠man

发布时间：2026-01-28 13:56:02

152人浏览过

来源于php中文网

原创

ksoftirqd占用高但NET_RX正常，说明问题在BLOCK或TIMER softirq而非网络接收路径；需通过/proc/softirqs变化速率、/proc/irq/*/spurious、perf trace及存储设备状态等综合定位根因。

ksoftirqd 高占用但 net_rx 正常的 block softirq / timer softirq 排查

为什么 ksoftirqd 占用高但 net_rx softirq 统计正常

这通常意味着问题不在网络接收路径本身，而是其他 softirq 类型（尤其是 block 或 timer）在持续触发、排队或执行时间过长，导致 ksoftirqd 线程忙于处理 backlog。注意：/proc/softirqs 中的 NET_RX 计数只反映被触发次数，不反映单次执行耗时；即使它增长平缓，只要某次 block softirq 处理花了 20ms，就可能阻塞后续所有 softirq 调度，ksoftirqd 就会持续跑满。

确认到底是 block 还是 timer softirq 在作祟

直接看 /proc/softirqs 各列累计值变化速率：

watch -n1 'grep -E "^(BLOCK|TIMER)" /proc/softirqs'

更关键的是观察每 CPU 的实时 pending 和延迟：

cat /proc/irq/*/spurious —— 查看是否有异常中断风暴（尤其 SCSI/NVMe 驱动 bug 可能引发虚假中断 → 触发大量 TIMER softirq）
perf record -e irq:softirq_entry -g -- sleep 5 + perf script | grep -E "(block|timer)" —— 定位实际进入 softirq 的调用栈源头
检查 /sys/block/*/stat 是否有某设备 io_ticks 暴涨但 reads_completed 几乎不动 —— 典型 IO hang 导致 BLOCK softirq 卡住

block softirq 卡住的常见根因和验证方式

BLOCK softirq 主要由块设备驱动在完成 IO 后触发（如 blk_mq_complete_request），卡住往往不是软中断本身慢，而是它依赖的上下文被阻塞：

星绘

豆包旗下 AI 写真、P 图、换装和视频生成

下载

文件系统层锁竞争：比如 XFS 的 log wait 或 ext4 的 journal commit 持久阻塞，用 cat /proc/fs/xfs/xfsstats | grep xs_log_waits 或 dmesg -T | grep -i "journal.*wait" 查
底层存储响应超时：NVMe 设备掉盘、RAID 卡降速、iSCSI target 延迟突增，用 smartctl -a /dev/nvme0n1、cat /sys/class/scsi_host/host*/stat、iscsiadm -m session -P 3 排查
IO 调度器死锁：CFQ 已淘汰，但某些定制内核仍用，或 mq-deadline 在高队列深度下出现请求合并异常，临时切到 none 测试：echo none > /sys/block/nvme0n1/queue/scheduler

timer softirq 异常升高的典型场景

TIMER softirq 占用高，大概率不是定时器太多，而是某个 timer handler 执行太久，或 timer 频繁重调度形成“timer storm”：

用户态进程频繁调用 nanosleep、epoll_wait（带 timeout）、select，且 timeout 极短（如 1ms），内核需为每个调用注册/注销高精度 timer —— 用 perf record -e 'syscalls:sys_enter_nanosleep' -- sleep 2 抓嫌疑进程
内核模块 bug：比如某些旧版 RDMA 驱动、DPDK PMD、或自研驱动在 mod_timer 时传入已销毁的 timer 结构体，导致 softirq 循环重试
RCU stall 间接引发：当 RCU callback 积压，内核会通过 TIMER softirq 强制推进，查 dmesg | grep -i "rcu.*stall" 和 /proc/sys/kernel/rcu_normal 值

真正难排查的是 softirq 在不同 CPU 间迁移不均 + 某个 CPU 上 block/timer handler 有隐式锁等待，这时候单看统计值会误判，必须结合 perf sched latency 和 per-CPU 的 /proc/softirqs 快照交叉比对。

requests.Session() 复用连接池的真实性能提升与限制条件

sqlalchemy 2.x 如何写异步 session + 事务上下文管理器

Python pytest fixture 的生命周期

Python爬虫反爬策略教程_模拟请求与验证码处理技巧

Python并发爬虫教程_提升抓取效率方案

相关标签:

session 栈 ai 为什么 echo select Session 结构体循环栈 class 线程 storm bug

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：将 MultiIndex 列的第一级“降维”为普通数据列（即展开列索引层级）下一篇：如何正确实现二维方阵的原地转置（避免浅拷贝陷阱）

作者最新文章

枕刀歌游戏出了没枕刀歌什么时候发行

2026-01-28 13:42

枕刀歌官网入口枕刀歌官网网页版在线进入

2026-01-28 13:49

风灵月影官方登录入口风灵月影官方官方网址是什么

2026-01-28 13:55

ksoftirqd 高占用但 net_rx 正常的 block softirq / timer softirq 排查

2026-01-28 13:56

风铃月影官方入口地址风铃月影官方网页版在线链接

2026-01-28 13:56

美国科幻最高荣誉比赛正式对AI说不！创作过程「任何阶段」使用AI皆淘汰

2026-01-28 14:08

Python 字符编码问题的根本原因

2026-01-28 14:38

deepseek解除限制提示词 DeepSeek突破功能限制方法

2026-01-28 14:42

ipvsadm vip 无 ARP 响应的 keepalived vrrp 配置配合

2026-01-28 14:43

Python 类与实例的属性查找顺序

2026-01-28 15:28

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

session失效的原因

session失效的原因有会话超时、会话数量限制、会话完整性检查、服务器重启、浏览器或设备问题等等。详细介绍：1、会话超时：服务器为Session设置了一个默认的超时时间，当用户在一段时间内没有与服务器交互时，Session将自动失效；2、会话数量限制：服务器为每个用户的Session数量设置了一个限制，当用户创建的Session数量超过这个限制时，最新的会覆盖最早的等等。

315

2023.10.17