irqbalance 不均衡导致单核 softirq 打满的网卡多队列调优

舞姬之光

发布时间：2026-01-24 17:40:03

857人浏览过

来源于php中文网

原创

irqbalance默认POWERSAVING策略会将网卡中断聚合到少数CPU以省电，导致softirq集中打满单核；应停用irqbalance，按物理核和NUMA节点手动绑定各队列IRQ，并关闭RPS/RFS。

irqbalance 不均衡导致单核 softirq 打满的网卡多队列调优

为什么 `irqbalance` 默认策略会让网卡中断集中到单个 CPU？

irqbalance 默认使用 POWERSAVING 模式（尤其在低负载时），会主动将中断聚合到少数 CPU 上以降低功耗。网卡多队列（如 eth0-TxRx-0 到 eth0-TxRx-7）的 IRQ 如果被合并调度到同一物理核，该核的 softirq（特别是 NET_RX）就会持续打满，而其他核空闲。

这不是 bug，是设计取舍——但对高吞吐、低延迟网络场景完全不适用。

确认当前模式：irqbalance --debug --oneshot 2>&1 | grep "policy"
查看各 IRQ 实际绑定：cat /proc/interrupts | grep eth0，观察列中数字是否集中在某几列
检查 CPU topology：用 lscpu 确认物理核/超线程关系，避免把多个队列绑到同一物理核的两个逻辑 CPU 上

停用 `irqbalance` 改用手动 IRQ 绑定更可控

自动均衡器在 NUMA 多插槽、异构核心（如 Intel P/E 核）、或启用了 isolcpus 的场景下极易误判。直接关闭它，用 set_irq_affinity.sh（内核自带）或手动写 /proc/irq/*/smp_affinity_list 更可靠。

停服务：systemctl stop irqbalance && systemctl disable irqbalance
查网卡支持队列数：ethtool -l eth0 | grep "Current hardware settings"
运行绑定脚本：/usr/lib/irqbalance/set_irq_affinity.sh eth0（注意：该脚本默认按物理核轮询，但需确认其行为是否匹配你的拓扑）
若脚本不适用，手动绑定示例：echo 0-1,4-5 > /proc/irq/123/smp_affinity_list（其中 123 是对应队列 IRQ 号）

绑定时必须避开超线程同核干扰和 NUMA 跨节点访问

把 eth0-TxRx-0 和 eth0-TxRx-1 都绑到 CPU0 和 CPU1（即同一物理核的两个逻辑 CPU），会导致 L1/L2 缓存争抢，softirq 处理延迟反而升高。同样，若网卡在 Node 0，却把中断绑到 Node 1 的 CPU，会触发跨 NUMA 访存，带宽下降明显。

一点PPT

一句话生成专业PPT，AI自动排版配图

下载

用 lscpu 和 numactl --hardware 明确每个 CPU 所属 Node 和 Core ID
优先将每个队列绑定到不同物理核的第一个逻辑 CPU（如 CPU0、CPU2、CPU4…）
确认网卡所在 NUMA node：lspci -vv -s $(ethtool -i eth0 | grep bus-info | awk '{print $2}') | grep NUMA
绑定后验证：运行 watch -n1 'cat /proc/interrupts | grep eth0'，观察各列计数是否均匀增长

`softirq` 打满还可能和 RPS/RFS 配置冲突

即使 IRQ 分散了，如果启用了 RPS（Receive Packet Steering）且配置不当，仍可能让所有软中断集中在某个 CPU 处理。RPS 是在 softirq 上层做二次分发，和底层 IRQ 绑定是两层机制，容易叠加错位。

检查是否启用：cat /sys/class/net/eth0/queues/rx-0/rps_cpus，非全 0 表示启用
高吞吐场景建议关闭 RPS：echo 0 > /sys/class/net/eth0/queues/rx-0/rps_cpus（全部 rx 队列都要关）
RFS（RPS 的流感知增强版）更要禁用，它依赖 net.core.rps_sock_flow_entries，易引发 hash 冲突和单核热点
确认无残留：sysctl net.core.rps_sock_flow_entries 应为 0

真正起效的永远是 IRQ 到物理核的硬绑定；RPS/RFS 在现代多队列网卡上已非必需，反而增加不可控路径。

Linux calico 的 Felix 日志级别与 BPF dataplane 启用条件

Linux NFD（Node Feature Discovery）的 GPU / RDMA 标签自动发现

K3s 节点 taint 没被正确去除导致 pod 调度失败

kubectl get nodes 显示 NotReady 但 describe node 没明显错误怎么继续查

Cilium 安装后 pod 间通信不通但 node 到 pod 通的典型情况

相关标签:

node mac 热点 lsp echo print class 线程 bug

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：ethtool -S eth0 rx_missed_errors 持续增加的硬件/驱动/ring buffer 原因下一篇：random: crng init 卡死几分钟的 haveged/rng-tools 加速方案

作者最新文章

GitHub 代码复现跑不通怎么办？常见失败原因与排查方法

2026-03-11 12:20

Linux网络不通怎么排查_ping网络诊断方法

2026-03-11 12:44

Linux系统怎么更新_补丁管理方法

2026-03-11 12:46

Linux 内存持续增长_内存泄漏定位

2026-03-11 12:59

LinuxTIME_WAIT过多_端口耗尽治理方案

2026-03-11 13:05

Linux磁盘挂载缓慢_挂载性能问题分析

2026-03-11 13:12

Linux 性能优化误区总结_常见错误解析

2026-03-11 13:54

MySQL 面试常见问题完整汇总

2026-03-11 14:34

网易云游戏入口网易云游戏官方入口地址

2026-03-11 14:46

Linux 多文件日志搜索方法

2026-03-11 15:24

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

python中print函数的用法

python中print函数的语法是“print(value1, value2, ..., sep=' ', end=' ', file=sys.stdout, flush=False)”。本专题为大家提供print相关的文章、下载、课程内容，供大家免费下载体验。

193

2023.09.27

python print用法与作用

本专题整合了python print的用法、作用、函数功能相关内容，阅读专题下面的文章了解更多详细教程。

2026.02.03

class在c语言中的意思

在C语言中，"class" 是一个关键字，用于定义一个类。想了解更多class的相关内容，可以阅读本专题下面的文章。

891

2024.01.03

python中class的含义

本专题整合了python中class的相关内容，阅读专题下面的文章了解更多详细内容。

2025.12.06

线程和进程的区别

线程和进程的区别：线程是进程的一部分，用于实现并发和并行操作，而线程共享进程的资源，通信更方便快捷，切换开销较小。本专题为大家提供线程和进程区别相关的各种文章、以及下载和课程。

765

2023.08.10

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

174

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

热门下载

网站特效

网站源码

网站素材

前端模板