安全批量清理泄漏网络命名空间需先预览再执行:脚本通过检查/var/run/netns/下符号链接、进程引用、白名单及创建时间识别泄漏项,支持dry-run模式、自动跳过活跃namespace,并提供unlink回退机制。

当系统中存在大量残留的网络 namespace(如容器、测试环境或异常退出进程遗留),ip netns list 会显示成百上千个命名空间,不仅影响排查效率,还可能拖慢网络操作。根本原因常是未正确销毁 namespace(如未执行 ip netns delete 或挂载点残留),导致内核中 namespace 对象未释放。
确认哪些 namespace 是“泄漏”的
真正泄漏的 namespace 通常满足以下特征:
- 对应目录
/var/run/netns/xxx存在,但无任何进程正在使用它(ls -l /proc/*/ns/net 2>/dev/null | grep xxx无匹配) - namespace 名称含明显临时标识(如
test-*、tmp_*、ns_2024*、UUID 片段等) - 创建时间久远(可通过
stat /var/run/netns/xxx | grep Modify判断)且无关联容器运行(docker ps --filter "network=xxx" -q为空)
安全批量清理脚本(带预览与白名单)
以下 Bash 脚本支持预览模式、白名单保护、自动跳过正在使用的 namespace:
#!/bin/bash
# safe-netns-cleanup.sh
NETNS_DIR="/var/run/netns"
WHITELIST=("default" "host" "myns-prod") # 修改为你需要保留的名称
list_leaked() {
find "$NETNS_DIR" -maxdepth 1 -type l -printf "%f\n" 2>/dev/null | while read ns; do
跳过白名单
[[ " ${WHITELIST[@]} " =~ " $ns " ]] && continue
# 检查是否被进程引用
if ! ls -l /proc/*/ns/net 2>/dev/null | grep -q "$(readlink -f "$NETNS_DIR/$ns")"; then
echo "$ns"
fi
done | sort -u}
if [[ "${1:-}" == "--dry-run" ]]; then
echo "[DRY RUN] Would delete these leaked namespaces:"
list_leaked | tee /tmp/netns-to-delete.log
echo "Total: $(wc -l
echo "Cleaning up leaked namespaces..."
list_leaked | while read ns; do
echo -n "Deleting $ns... "
if ip netns delete "$ns" 2>/dev/null; then
echo "OK"
else
回退:手动 unlink(仅当 ip netns delete 失败时)
if [[ -e "$NETNS_DIR/$ns" ]]; then
rm -f "$NETNS_DIR/$ns"
echo "unlinked (ip netns delete failed)"
else
echo "already gone"
fi
fidone
执行前必做三件事
- 先运行
./safe-netns-cleanup.sh --dry-run查看将要删除的列表,人工核对前 10 行是否合理 - 确保没有正在运行的容器或 systemd service 依赖这些 namespace(尤其是以
netns=方式启动的服务) - 备份关键 namespace(如生产用):
ip netns exec myprod ip a记录配置,或cp /var/run/netns/myprod /tmp/ns-myprod.bak
防止再次泄漏的建议
- 所有创建 namespace 的脚本/CI 步骤,必须配对
trap 'ip netns delete xxx' EXIT - 避免直接
ln -s创建 netns,统一用ip netns add(它会自动处理挂载和权限) - 定期巡检:
systemd-run --on-calendar="daily" --timer-property=Persistent=true /path/to/safe-netns-cleanup.sh










