ss -m 显示 TCP 内存占用巨大但进程 RSS 不高的 socket 泄漏定位

舞夢輝影

发布时间：2026-01-28 17:04:02

804人浏览过

来源于php中文网

原创

这是典型的内核socket缓冲区泄漏，ss -m显示的skmem_rmem/skmem_wmem属内核sk_buff内存，不计入进程RSS；需通过ino定位残留socket，结合状态（如CLOSE_WAIT）、重传、TCP参数等综合分析。

ss -m 显示 tcp 内存占用巨大但进程 rss 不高的 socket 泄漏定位

ss -m 显示 skmem_rmem/skmem_wmem 巨大但 ps/top RSS 很低

这是典型的内核 socket 缓冲区泄漏，而非用户态内存泄漏。ss -m 中的 skmem_rmem 和 skmem_wmem 是内核为 socket 分配的接收/发送队列内存（属于 slab 或 page 级别），不计入进程的 RSS（只统计用户态匿名页和文件映射页）。进程可能已退出，但 socket 仍处于 CLOSE_WAIT、FIN_WAIT2 或未正确 close() 的半关闭状态，导致内核无法释放缓冲区。

ss -m 显示的内存是 per-socket 的 sk->sk_rmem_alloc/sk->sk_wmem_alloc，单位是字节，可远超单个 socket 的 rmem_max/wmem_max（尤其在有大量未确认数据或排队 sk_buff 时）
进程 RSS 低说明它没在用户态 malloc 大量内存，但可能反复 send() 后不 recv()，或 shutdown(SHUT_WR) 后不读完对端 FIN，造成接收队列持续堆积
注意 ss -m 输出中 ino 字段——这是 socket 对应的 inode 号，可用于关联 /proc/*/fd/ 和 /proc/*/net/tcp

用 ino 定位残留 socket 所属进程（含已退出但未 fully close 的）

即使进程已 exit，只要 socket 还持有引用（如被子进程继承、或存在 file descriptor 引用但未 close），其 inode 就仍存在于 /proc/net/tcp 或 /proc/net/tcp6 中。关键不是找“活着的进程”，而是找“谁最后打开过这个 socket”。

运行 ss -tulnmp | grep 'skmem_rmem.*[0-9]{7,}' 提取高内存 socket 的 ino 值（例如 ino:123456789）
用 find /proc/[0-9]*/fd/ -lname "socket:[123456789]" 2>/dev/null 查找所有指向该 inode 的 fd 符号链接；若无结果，说明进程已退出但 socket 未释放（常见于孤儿连接或内核 refcount 泄漏）
若有结果，进入对应 /proc/PID/ 目录，检查 comm、cmdline 和 stack（需 root）： cat /proc/PID/stack 可看线程是否卡在 tcp_recvmsg、sock_sendmsg 或 epoll_wait 等调用点

检查 netstat/ss 输出中的状态与重传标志

仅看内存值不够，必须结合 socket 状态判断泄漏类型。重点关注 CLOSE_WAIT（对端已 FIN，本端不 close）、ESTABLISHED 但 retrans 高、或 FIN_WAIT2 长时间不超时。

PNG Maker

利用 PNG Maker AI 将文本转换为 PNG 图像。

下载

ss -tunp state close-wait | wc -l：CLOSE_WAIT 过多通常意味着应用层未调用 close()，尤其在 HTTP keep-alive 或数据库连接池未正确归还连接时
ss -i（带 TCP info）可显示 retrans、qsize、rcv_space；若 retrans > 0 且 qsize 持续增长，可能是对端不可达或应用层写阻塞未处理
netstat -s | grep -A5 "Tcp:" 查看全局 TcpExtTCPAbortOnMemory 或 TcpExtTCPMemoryPressures 计数，若频繁触发，说明内核已因 socket 内存耗尽开始 abort 连接

验证是否由 SO_RCVBUF/SO_SNDBUF 设置不当引发

显式调大 socket 缓冲区（如 setsockopt(fd, SOL_SOCKET, SO_RCVBUF, &val, sizeof(val))）会直接放大 skmem_rmem 占用，但若应用未及时 recv()，缓冲区就变成“内存黑洞”。Linux 4.6+ 默认启用自动调优（net.ipv4.tcp_rmem 第三项为 max），但手动设置会禁用 auto-tuning。

检查 /proc/sys/net/ipv4/tcp_rmem 和 /proc/sys/net/ipv4/tcp_wmem，若第二/三字段过大（如 4096 65536 16777216），且应用又未做流控，极易堆积
用 ss -i 观察单个 socket 的 rcv_ssthresh 和 rcv_space：若 rcv_space 接近 tcp_rmem[2] 且 rcv_ssthresh 很小，说明接收窗口已关死，但数据还在进
临时缓解可调低全局上限：echo "4096 65536 4194304" > /proc/sys/net/ipv4/tcp_rmem，但根本解法是修复应用层 read loop 或增加超时

真正难定位的是那些 ino 找不到对应进程、ss -m 内存缓慢上涨、且 netstat -s 中 TcpExtTCPAbortOnMemory 不增不减的情况——这往往指向内核模块 bug、eBPF 程序意外 hold socket ref、或 cgroup v1 的 socket 内存 accounting 残留。这时候得用 bpftrace hook tcp_close 和 sk_stream_kill_queues 看谁没被调用。

Linux 配置变更如何避免事故？

Linux 网络延迟高的根因分析

Linux SSH 登录慢的排查思路

Linux 从“被动救火”到“主动治理”

Linux 启动时内核参数的作用机制

相关标签:

linux node 字节 ai keep-alive stream 内存占用 echo NULL auto 继承堆线程数据库 http linux bug

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Linux firewalld 在生产环境的使用建议下一篇：Linux 文件系统挂载失败的排错流程

作者最新文章

httpx 如何设置 read_timeout 与 connect_timeout 分别控制

2026-01-27 19:25

Python 滑动窗口算法实现与性能分析

2026-01-27 19:26

如何让生成器支持 throw() 抛异常到生成器内部

2026-01-27 19:28

SQL 如何用慢查询日志 + pt-query-digest 找出 Top 慢 SQL

2026-01-27 19:34

类变量在多进程 fork 后的行为与修改陷阱

2026-01-27 19:39

SQL 如何用 pgstattuple 检查表/索引膨胀并触发清理

2026-01-27 19:41

SQL 如何用索引视图加速频繁的聚合查询（SQL Server）

2026-01-27 19:55

苹果MacBook Pro产品线传2026将迎史上最大改版

2026-01-28 09:28

2026下半年发布！荣耀Magic 9系列或采用双2亿像素传感器方案

2026-01-28 10:08

AI取代白领根本假议题？经济学人分析：你的工作比想像中难度要高

2026-01-28 10:10

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

c语言中null和NULL的区别

c语言中null和NULL的区别是：null是C语言中的一个宏定义，通常用来表示一个空指针，可以用于初始化指针变量，或者在条件语句中判断指针是否为空；NULL是C语言中的一个预定义常量，通常用来表示一个空值，用于表示一个空的指针、空的指针数组或者空的结构体指针。

236

2023.09.22

java中null的用法

在Java中，null表示一个引用类型的变量不指向任何对象。可以将null赋值给任何引用类型的变量，包括类、接口、数组、字符串等。想了解更多null的相关内容，可以阅读本专题下面的文章。

438

2024.03.01

堆和栈的区别

堆和栈的区别：1、内存分配方式不同；2、大小不同；3、数据访问方式不同；4、数据的生命周期。本专题为大家提供堆和栈的区别的相关的文章、下载、课程内容，供大家免费下载体验。

396

2023.07.18

堆和栈区别

堆(Heap)和栈(Stack)是计算机中两种常见的内存分配机制。它们在内存管理的方式、分配方式以及使用场景上有很大的区别。本文将详细介绍堆和栈的特点、区别以及各自的使用场景。php中文网给大家带来了相关的教程以及文章欢迎大家前来学习阅读。

575

2023.08.10

线程和进程的区别

线程和进程的区别：线程是进程的一部分，用于实现并发和并行操作，而线程共享进程的资源，通信更方便快捷，切换开销较小。本专题为大家提供线程和进程区别相关的各种文章、以及下载和课程。

503

2023.08.10

数据库三范式

数据库三范式是一种设计规范，用于规范化关系型数据库中的数据结构，它通过消除冗余数据、提高数据库性能和数据一致性，提供了一种有效的数据库设计方法。本专题提供数据库三范式相关的文章、下载和课程。

358

2023.06.29

如何删除数据库

删除数据库是指在MySQL中完全移除一个数据库及其所包含的所有数据和结构，作用包括：1、释放存储空间；2、确保数据的安全性；3、提高数据库的整体性能，加速查询和操作的执行速度。尽管删除数据库具有一些好处，但在执行任何删除操作之前，务必谨慎操作，并备份重要的数据。删除数据库将永久性地删除所有相关数据和结构，无法回滚。

2082

2023.08.14