0

0

Linux进程数持续增长_进程泄漏问题分析

冷漠man

冷漠man

发布时间:2026-03-10 13:09:02

|

1013人浏览过

|

来源于php中文网

原创

进程数持续增长不等于泄漏,需排查僵尸进程、pid_max上限及内核告警;重点检查定时任务失控、子进程未wait、服务反复重启;区分用户态(未wait)、内核态(线程未释放)及cgroup配置问题。

linux进程数持续增长_进程泄漏问题分析

先看是不是真泄漏

进程数持续增长不等于一定存在泄漏。Linux 系统中,短生命周期进程(如 cron 任务、日志轮转脚本、HTTP 探针)频繁启停,ps aux | wc -l 数值波动是正常现象。关键要看:
ps -eo stat,pid,comm --sort=pid | grep "^Z" 是否存在大量僵尸进程(Z 状态),说明父进程未回收;
cat /proc/sys/kernel/pid_max 对比当前进程总数(ps -eL | wc -l),若接近上限(默认 32768),才真正有风险;
dmesg -T | grep -i "out of memory\|pid_max" 查是否有内核级告警。

快速定位异常进程来源

重点检查三类高发场景:
定时任务失控:运行 systemctl list-timers --allcrontab -l(含 root 及各服务用户),确认是否存在未加锁、无超时控制的循环脚本;
子进程未 wait:对可疑服务(如自研守护进程、Python 后台任务),用 strace -p PID -e trace=clone,fork,vfork,wait4 2>&1 | grep -E "(clone|wait)" 观察是否调用 wait 类系统调用;
容器或 systemd 服务反复重启:查 journalctl -u your-service --since "2 hours ago" | grep -i "exited\|started\|failed",若 restart=always 但退出码非 0,可能陷入“启动→崩溃→重启”死循环。

区分用户态与内核态根源

进程创建本身消耗内核资源(task_struct、PID 描述符等),泄漏可能发生在不同层级:
用户态泄漏:程序 fork() 后未 waitpid(),或使用 popen() / subprocess.Popen() 启动子进程却忽略清理;常见于 Python/Shell 脚本中缺少 try/finally 或 signal handler;
内核态泄漏:极少见,但若 /proc/sys/kernel/pid_max 未达上限,而 cat /proc/sys/kernel/threads-maxps -eL | wc -l 差值持续收窄,需怀疑 kernel thread 创建未释放(如异常驱动模块);
tmpfs 或 cgroup 限制误配:在容器环境中,cat /sys/fs/cgroup/pids.max 若为小数值(如 100),而应用实际需更多进程,会导致 fork 失败并重试,表面看像泄漏,实为配置瓶颈。

验证与收敛手段

确认泄漏后,优先用低侵入方式收敛:
– 对 shell 脚本,在关键 fork 前加 set -o pipefail; trap 'kill $(jobs -p) 2>/dev/null' EXIT
– 对 Python 进程,确保 subprocess 使用 subprocess.run(..., timeout=30) 并捕获异常;
– 临时限制进程数:prlimit --nproc=500 --pid PID(对单进程)或修改 systemd service 的 TasksMax=500
– 清理僵尸进程:kill -s SIGCHLD $(ps -o pid= -C your-parent-binary)(仅对支持该信号的父进程有效),更可靠的是升级或修复父进程逻辑。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
c语言中null和NULL的区别
c语言中null和NULL的区别

c语言中null和NULL的区别是:null是C语言中的一个宏定义,通常用来表示一个空指针,可以用于初始化指针变量,或者在条件语句中判断指针是否为空;NULL是C语言中的一个预定义常量,通常用来表示一个空值,用于表示一个空的指针、空的指针数组或者空的结构体指针。

253

2023.09.22

java中null的用法
java中null的用法

在Java中,null表示一个引用类型的变量不指向任何对象。可以将null赋值给任何引用类型的变量,包括类、接口、数组、字符串等。想了解更多null的相关内容,可以阅读本专题下面的文章。

1089

2024.03.01

sort排序函数用法
sort排序函数用法

sort排序函数的用法:1、对列表进行排序,默认情况下,sort函数按升序排序,因此最终输出的结果是按从小到大的顺序排列的;2、对元组进行排序,默认情况下,sort函数按元素的大小进行排序,因此最终输出的结果是按从小到大的顺序排列的;3、对字典进行排序,由于字典是无序的,因此排序后的结果仍然是原来的字典,使用一个lambda表达式作为key参数的值,用于指定排序的依据。

409

2023.09.04

线程和进程的区别
线程和进程的区别

线程和进程的区别:线程是进程的一部分,用于实现并发和并行操作,而线程共享进程的资源,通信更方便快捷,切换开销较小。本专题为大家提供线程和进程区别相关的各种文章、以及下载和课程。

764

2023.08.10

Java 并发编程高级实践
Java 并发编程高级实践

本专题深入讲解 Java 在高并发开发中的核心技术,涵盖线程模型、Thread 与 Runnable、Lock 与 synchronized、原子类、并发容器、线程池(Executor 框架)、阻塞队列、并发工具类(CountDownLatch、Semaphore)、以及高并发系统设计中的关键策略。通过实战案例帮助学习者全面掌握构建高性能并发应用的工程能力。

99

2025.12.01

http500解决方法
http500解决方法

http500解决方法有检查服务器日志、检查代码错误、检查服务器配置、检查文件和目录权限、检查资源不足、更新软件版本、重启服务器或寻求专业帮助等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

495

2023.11.09

http请求415错误怎么解决
http请求415错误怎么解决

解决方法:1、检查请求头中的Content-Type;2、检查请求体中的数据格式;3、使用适当的编码格式;4、使用适当的请求方法;5、检查服务器端的支持情况。更多http请求415错误怎么解决的相关内容,可以阅读下面的文章。

449

2023.11.14

HTTP 503错误解决方法
HTTP 503错误解决方法

HTTP 503错误表示服务器暂时无法处理请求。想了解更多http错误代码的相关内容,可以阅读本专题下面的文章。

3480

2024.03.12

Go高并发任务调度与Goroutine池化实践
Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开,系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示,帮助开发者构建稳定高效的 Go 并发任务处理系统,提高系统在高负载环境下的处理能力与稳定性。

4

2026.03.10

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
PostgreSQL 教程
PostgreSQL 教程

共48课时 | 10.4万人学习

Git 教程
Git 教程

共21课时 | 4.1万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号