0

0

Linux CPU 飙高的排查流程

冰川箭仙

冰川箭仙

发布时间:2026-01-24 13:20:02

|

235人浏览过

|

来源于php中文网

原创

用 top -Hp PID 并按 P 排序定位高 CPU 线程,将 TID 转十六进制后在 jstack 日志中搜索 RUNNABLE 栈帧,即可精准定位 Java 热点代码行。

linux cpu 飙高的排查流程

top 命令怎么快速揪出“真凶”进程?

top 是第一反应工具,但默认视图容易误判:它按进程(PID)排序,而真正吃 CPU 的往往是某个线程(TID),不是整个进程。直接看 %CPU 列最高值,再按大写 P 键强制按 CPU 使用率降序——这是关键动作,否则可能被平均值蒙蔽。

  • 如果 %Cpu(s) 行中 us(user)占比超 80%,大概率是应用层问题(如 Java 死循环、Python 无限 while True
  • 如果 sy(system)高,说明频繁陷入内核,可能是锁竞争、大量 epoll_waitclone 系统调用
  • 如果 wa(iowait)明显,别急着查 CPU,先用 iostat -x 1 看磁盘是否卡住

注意:top 默认刷新间隔是 3 秒,对瞬时尖峰不敏感;可输 1 改为 1 秒刷新,避免漏掉短时爆发。

如何从进程 PID 快速定位到 Java 线程和代码行?

找到高 CPU 进程(比如 PID=12345)后,下一步必须下钻到线程级,因为 JVM 里一个 java 进程常有上百线程,真正“作恶”的往往只有一个。

  • 先用 top -Hp 12345 查看该进程所有线程,同样按 P 排序,记下最高 %CPU 对应的 TID(例如 12399)
  • 立即转十六进制:printf "%x\n" 12399 → 得到 306f(注意:Java jstack 输出里的 nid 就是这个格式,形如 nid=0x306f
  • 导出堆jstack 12345 > stack.log,然后搜索 0x306f,重点看状态为 RUNNABLE 的栈帧,通常第 1–3 行就是热点方法

常见坑:

  • 直接在 jstack 输出里搜十进制 TID(比如搜 12399)一定找不到——JVM 日志只存 hex
  • top -H 显示的 PID 列其实是 TID,Linux 内核中线程和进程共享 PID 命名空间,TID = PID,这点别混淆

strace 和 perf 怎么选?什么场景该用哪个?

straceperf 都能深挖系统行为,但目标完全不同:

Linux+PHP+MySQL案例教程
Linux+PHP+MySQL案例教程

本书以培养高级网站建设与管理人才为目标,内容循序渐进,由浅入深,通过大量的实例系统全面地介绍了Linux+PHP+MySQL环境下的网络后台开发技术。本书详尽分析了近30个典型案例。包括计数器、网站流量统计、留言板、论坛系统、聊天室、投票与调查、用户管理、新闻发布系统、广告轮播、购物系统等等,力求让读者通过对案例的学习,轻松掌握PHP和MySQL的编程精要,迅速掌握网络后台开发技巧。   本书适

下载
  • strace -p 是为了确认“它到底在反复调什么系统调用”。比如看到满屏 clock_gettime(CLOCK_MONOTONIC, ...) 或高频 write(1, ...),基本锁定是日志刷屏或时间戳滥用。
  • perf top -p 是为了看“CPU 时间花在哪条指令/函数上”。输出里如果 java::String::equalsPyUnicode_Compare 占比异常高,说明字符串比较逻辑有问题;如果是 memsetmemcpy 高,则可能是大对象频繁复制。

注意:

  • strace 开销极大,线上慎用;perf 相对轻量,但需确保内核开启 perf_event_paranoidcat /proc/sys/kernel/perf_event_paranoid ≤ 2)
  • perf record -p -g -- sleep 10 + perf script 可生成火焰图,比 perf top 更利于发现调用链路中的隐藏瓶颈

为什么 load average 高 ≠ CPU 忙?别被数字骗了

load average(如 load average: 4.15, 3.80, 3.20)反映的是“等待 CPU 或不可中断 I/O 的任务数”,不是 CPU 使用率。

  • 在 4 核机器上,load=4.15 并不意味着 CPU 100%,它可能只是 2 个进程在等磁盘读,另 2 个在等网络响应,此时 %Cpu(s)ussy 可能都不到 30%
  • 真正危险的组合是:load 高 + wa 高 → 磁盘瓶颈;load 高 + us 高 → 应用计算瓶颈;load 高 + sy 高 + cs(context switch)超高 → 锁或调度风暴

所以,看到 load 报警,第一反应不该是杀进程,而是跑一遍:vmstat 1 5(看 csbi/bo)、pidstat -t -p 1(看线程级上下文切换)、iotop(看谁在狂写磁盘)

最易忽略的一点:容器环境里,top 显示的 PID 是宿主机视角的,而 jstackstrace 必须进容器 namespace 才能拿到真实线程栈——别在宿主机上对容器内 Java 进程直接 jstack,那会失败或返回空。

相关专题

更多
python开发工具
python开发工具

php中文网为大家提供各种python开发工具,好的开发工具,可帮助开发者攻克编程学习中的基础障碍,理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容,供大家免费下载使用。

773

2023.06.15

python打包成可执行文件
python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章,大家可以免费的下载体验。

684

2023.07.20

python能做什么
python能做什么

python能做的有:可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

765

2023.07.25

format在python中的用法
format在python中的用法

Python中的format是一种字符串格式化方法,用于将变量或值插入到字符串中的占位符位置。通过format方法,我们可以动态地构建字符串,使其包含不同值。php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

719

2023.07.31

python教程
python教程

Python已成为一门网红语言,即使是在非编程开发者当中,也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章,大家可以免费体验学习。

1425

2023.08.03

python环境变量的配置
python环境变量的配置

Python是一种流行的编程语言,被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后,我们需要配置环境变量,以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

570

2023.08.04

python eval
python eval

eval函数是Python中一个非常强大的函数,它可以将字符串作为Python代码进行执行,实现动态编程的效果。然而,由于其潜在的安全风险和性能问题,需要谨慎使用。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

579

2023.08.04

scratch和python区别
scratch和python区别

scratch和python的区别:1、scratch是一种专为初学者设计的图形化编程语言,python是一种文本编程语言;2、scratch使用的是基于积木的编程语法,python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容,供大家免费下载体验。

751

2023.08.11

c++ 根号
c++ 根号

本专题整合了c++根号相关教程,阅读专题下面的文章了解更多详细内容。

25

2026.01.23

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
PostgreSQL 教程
PostgreSQL 教程

共48课时 | 7.7万人学习

Git 教程
Git 教程

共21课时 | 3万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号