使用 top -H -p <pid> 定位高 CPU Java 线程,将十进制 LWP PID 转十六进制后在 jstack 输出中匹配 nid,重点分析 RUNNABLE 状态线程栈,区分业务逻辑、JIT 编译或 GC 等根因。

top -H 看清是哪个 Java 线程在吃 CPU
Java 进程整体 CPU 高,不等于某个线程就一定高;top 默认显示进程级,得切到线程视图才能定位真凶。直接执行 top -H -p <pid></pid>(<pid></pid> 是 Java 进程 ID),就能看到每个 LWP(轻量级进程,即 Java 线程)的 CPU 占用率。
常见错误:只用 top 看进程总占用,然后一通 jstack 抓全量栈,结果栈里全是 WAITING 或 TIMED_WAITING 线程——它们根本不占 CPU。真正要盯的是 RUNNABLE 且 CPU% 排前几的线程。
- 记下高 CPU 线程的十进制 PID(
top -H显示的就是十进制) - 用
printf "%x\n" <tid></tid>转成十六进制,这是 jstack 线程栈里nid的格式 - 注意:Linux 线程 PID 和 jstack 中的
tid是同一内核调度实体,可直接对应
jstack 输出里快速定位目标线程栈
jstack 输出默认是十六进制 nid,比如 "http-nio-8080-exec-5" #32 daemon prio=5 os_prio=0 tid=0x00007f9a8c0a7000 nid=0x1f6b runnable [0x00007f9a7d9fe000] ——这里的 0x1f6b 就是你要匹配的值。
别手动翻几千行日志。用管道过滤更稳:
立即学习“Java免费学习笔记(深入)”;
jstack <pid> | grep -A 20 "nid=0x1f6b"
如果线程处于 runnable 但实际在等锁,栈顶可能是 Unsafe.park 或 Object.wait;如果真在密集计算,栈顶往往落在你自己的业务方法、正则匹配(java.util.regex.Pattern)、JSON 序列化(com.fasterxml.jackson.databind)或空循环里。
- 注意区分
runnable(OS 层就绪态)和running(正在 CPU 上执行)——jstack 不体现后者,只能靠top -H辅助判断 - 某些 JVM(如 ZGC)可能让 jstack 输出含
[RESERVED]栈帧,属正常,重点看它上面几层 - 避免在高负载时反复执行 jstack,可能加剧卡顿;一次抓全,离线分析
常见 CPU 高的 Java 代码模式与反例
不是所有 RUNNABLE 都代表 bug,但以下模式高频中招:
- 死循环里没 sleep / yield:
while (flag) { /* 空转 */ }或正则Pattern.compile(".*+").matcher(str).find()(灾难性回溯) - 日志级别错配:生产环境开着
DEBUG,且日志内容触发昂贵 toString() 或 JSON 序列化 - 频繁创建短生命周期对象 + GC 压力大:不一定栈里显眼,但会推高
VM Thread和 GC 线程 CPU,此时jstat -gc <pid></pid>的YGC/FGC次数/耗时会异常 - ConcurrentHashMap 在极端热点 key 下发生大量 hash 冲突,导致链表过长甚至树化失败,退化为 O(n) 查找
验证方式很简单:把可疑代码段临时注释或加 Thread.sleep(1),再看 top -H 是否回落。
别漏掉 JIT 编译线程和 GC 线程本身
有时候 top -H 排第一的线程名是 JIT compiler thread 0 或 G1 Conc#0,说明问题不在业务代码,而在 JVM 自身行为:
-
JIT compiler thread长期高 CPU:可能是某段代码被反复编译(如反射调用、Lambda 动态生成),或-XX:+TieredStopAtLevel=1被误关,导致 C2 编译器持续工作 -
G1 Conc/G1 Refine高:说明堆里对象存活率高、记忆集更新频繁,检查是否有大对象长期驻留、或 StringTable 泄漏(jmap -histo:live <pid></pid>看java.lang.String实例数) - 用
jstat -compiler <pid></pid>看编译次数是否激增;用jstat -gc <pid> 1000</pid>观察 GC 吞吐是否恶化
这时候改代码没用,得调 JVM 参数,或者确认是不是刚上线新功能触发了预期外的数据分布。
线程栈分析只是起点,CPU 高背后可能是代码、配置、数据、JVM 四层中的任意一层出问题。盯着 top -H 和 nid 对齐这一步,漏掉就全盘跑偏。










