0

0

"rcu detected stall" 导致 CPU 卡死的软/硬锁或中断风暴解决

冷炫風刃

冷炫風刃

发布时间:2026-01-23 20:33:01

|

115人浏览过

|

来源于php中文网

原创

RCU stall是检测机制报警而非硬件故障,需结合soft lockup日志、NMI watchdog响应等判断软/硬锁死;用SysRq+r/l/t抓取堆栈定位卡点,常见原因包括中断中阻塞、自旋锁争用、GIC配置错误或寄存器访问异常。

\

确认 stall 是软锁死还是真硬件异常

看到 rcu_sched self-detected stall on CPU 并不等于硬件挂了——它只是 RCU 机制发现某个 CPU 长时间没进入静止状态(Quiescent State),比如没发生调度、没退出临界区、没处理完中断。真正卡死(softlockup 或 hard lockup)需要结合其他线索判断:
• 如果伴随 BUG: soft lockup - CPU#X stuck for Ns!,大概率是软锁死(内核线程或中断上下文死循环 + 抢占/中断被禁用);
• 如果连 NMI watchdog 都无响应、串口完全静默、无法触发 SysRq,才需怀疑硬锁或硬件故障(如 CPU 散热失效、内存 ECC 错误、ARM 平台的 GIC hang);
• 注意区分:RCU stall 日志本身是“检测器报警”,不是根源——它告诉你“某处卡住了”,但不告诉你卡在哪。

用 SysRq 快速抓取卡死瞬间的现场

这是最直接、最轻量、生产环境也适用的定位手段,前提是 /proc/sys/kernel/sysrq 已设为 1(默认多数发行版启用)。系统卡住时,立刻按:
Alt+SysRq+r:解除键盘原始模式(避免快捷键被 X/Wayland 拦截)
Alt+SysRq+l:dump 所有 CPU 的当前堆(小写 L,不是 1)
Alt+SysRq+t:dump 当前所有任务状态(可选,辅助看哪个进程在 running)
关键点:
• 不要等屏幕刷新——输出会打到 console(dmesg 缓冲区或串口),即使 HDMI 黑屏也能从 dmesg -T | tail -50 回溯(如果还能进 shell);
• 若无物理终端,务必提前配置串口控制台(console=ttyS0,115200n8)或 netconsole(netconsole=6666@192.168.1.100/eth0,6666@192.168.1.1/ff:ff:ff:ff:ff:ff);
• 切忌先按 s(sync)再 u(remount ro)再 b(reboot)——那是 panic 后保数据用的,当前只是 stall,先抓现场更重要。

从 calltrace 定位常见 stall 根源

你贴出的 trace 中出现 arch_timer_handler_virthandle_percpu_devid_irqrcu_check_callbacks,说明 stall 发生在定时器中断上下文中。典型原因包括:
• 中断 handler 里调用了不可睡眠函数却意外阻塞(如 mdelay() 在原子上下文);
• 驱动在中断中持有自旋锁过久,且该锁又被进程上下文竞争(如你知识库提到的 spin_lock vs 软中断死锁);
• ARM 平台常见:GIC 配置错误导致中断无法 EOI,造成中断风暴,CPU 一直处理同个中断,无法调度;
• 实时任务抢占过高:高优先级 SCHED_FIFO 任务长期霸占 CPU,RCU kthread(rcu_sched)得不到运行机会;
• 注意 trace 最后一行 my_debug_1 R running task —— 这个 running 状态很关键:如果它卡在 readl()__raw_readl(),极可能是访问了未就绪的硬件寄存器(emulator/CModel 场景下尤其明显),属于“假 stall”而非真死锁。

Yarnit | Digital Stories
Yarnit | Digital Stories

Yarnit带来了最好的讲故事和AI技术,快速和大规模地创建内容

下载

临时缓解与长期修复策略

临时上线可用但非根治:
• 增大 stall 检测阈值(仅调试用):echo 60 > /proc/sys/kernel/rcu_cpu_stall_timeout(单位秒,避免误报);
• 禁用可疑驱动模块(如 AST 显卡驱动):modprobe.blacklist=ast 加到 kernel cmdline;
• 调整 RCU 内核线程优先级:echo 2 > /sys/module/rcutree/parameters/kthread_prio(数值越小优先级越高)。
长期必须做:
• 所有循环体中插入 cond_resched()(非实时场景)或 cond_resched_rcu_qs()(RCU 临界区内);
• 中断 handler 里严禁调用 printk()msleep()、任何可能引发调度或锁竞争的函数;
• 使用 ftrace 持续监控:echo function_graph > /sys/kernel/debug/tracing/current_tracer + echo "rcu_*" > /sys/kernel/debug/tracing/set_ftrace_filter,复现时抓 trace;
• 硬件相关 stall(如 GIC、timer)务必查 SoC TRM,确认中断 mask/EOI 流程是否完整。

相关专题

更多
堆和栈的区别
堆和栈的区别

堆和栈的区别:1、内存分配方式不同;2、大小不同;3、数据访问方式不同;4、数据的生命周期。本专题为大家提供堆和栈的区别的相关的文章、下载、课程内容,供大家免费下载体验。

394

2023.07.18

堆和栈区别
堆和栈区别

堆(Heap)和栈(Stack)是计算机中两种常见的内存分配机制。它们在内存管理的方式、分配方式以及使用场景上有很大的区别。本文将详细介绍堆和栈的特点、区别以及各自的使用场景。php中文网给大家带来了相关的教程以及文章欢迎大家前来学习阅读。

574

2023.08.10

堆和栈的区别
堆和栈的区别

堆和栈的区别:1、内存分配方式不同;2、大小不同;3、数据访问方式不同;4、数据的生命周期。本专题为大家提供堆和栈的区别的相关的文章、下载、课程内容,供大家免费下载体验。

394

2023.07.18

堆和栈区别
堆和栈区别

堆(Heap)和栈(Stack)是计算机中两种常见的内存分配机制。它们在内存管理的方式、分配方式以及使用场景上有很大的区别。本文将详细介绍堆和栈的特点、区别以及各自的使用场景。php中文网给大家带来了相关的教程以及文章欢迎大家前来学习阅读。

574

2023.08.10

线程和进程的区别
线程和进程的区别

线程和进程的区别:线程是进程的一部分,用于实现并发和并行操作,而线程共享进程的资源,通信更方便快捷,切换开销较小。本专题为大家提供线程和进程区别相关的各种文章、以及下载和课程。

482

2023.08.10

console接口是干嘛的
console接口是干嘛的

console接口是一种用于在计算机命令行或浏览器开发工具中输出信息的工具,提供了一种简单的方式来记录和查看应用程序的输出结果和调试信息。本专题为大家提供console接口相关的各种文章、以及下载和课程。

412

2023.08.08

console.log是什么
console.log是什么

console.log 是 javascript 函数,用于在浏览器控制台中输出信息,便于调试和故障排除。想了解更多console.log的相关内容,可以阅读本专题下面的文章。

501

2024.05.29

c++空格相关教程合集
c++空格相关教程合集

本专题整合了c++空格相关教程,阅读专题下面的文章了解更多详细内容。

0

2026.01.23

yy漫画官方登录入口地址合集
yy漫画官方登录入口地址合集

本专题整合了yy漫画入口相关合集,阅读专题下面的文章了解更多详细内容。

0

2026.01.23

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
CSS3 教程
CSS3 教程

共18课时 | 4.8万人学习

CSS教程
CSS教程

共754课时 | 22.8万人学习

Vue.js 微实战--十天技能课堂
Vue.js 微实战--十天技能课堂

共18课时 | 1.1万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号