Linux OOM 触发后的系统行为

冷漠man

发布时间：2026-01-27 19:01:02

849人浏览过

来源于php中文网

原创

OOM Killer基于/proc/PID/oom_score打分选择进程，分数越高越优先被杀；可调oom_score_adj（-1000免疫，+1000最优先）；容器中按cgroup内存限制计算分数；日志见dmesg中“Kill process”及Mem-Info快照；进程退出后内存释放存在延迟，受page cache、匿名页回收机制及cgroup统计延迟影响；应通过oom_score_adj调优、内存限制和MemAvailable监控降低误杀。

linux oom 触发后的系统行为

OOM Killer 是怎么选中进程的

Linux 内核在内存彻底耗尽时不会直接 panic，而是启动 oom_killer 机制，主动杀掉一个或多个进程来释放内存。它不随机选择，而是基于每个进程的 oom_score（位于 /proc/PID/oom_score）打分，分数越高越可能被干掉。

分数计算主要看进程占用的 RSS 内存，但会按比例惩罚那些“吃得多、优先级低”的进程
oom_score_adj（范围 -1000 到 +1000）可手动干预：设为 -1000 表示该进程完全免疫，+1000 则最优先被杀
root 启动的进程默认不享特权，oom_score_adj 仍为 0，照样可能被选中
容器环境里，cgroup 的 memory limit 会压缩可用内存上限，导致更早触发 OOM，且容器内进程的 oom_score 是相对于 cgroup 边界计算的

系统日志里能看到哪些关键线索

OOM 触发后，内核会往 dmesg 和 /var/log/kern.log（或 journalctl -k）写入结构化信息，重点盯住三类内容：

开头有 Out of memory: Kill process，后面紧跟着被杀进程名、PID、UID 和占用页数
中间有 Mem-Info: 快照，列出各内存域（DMA、Normal、HighMem）的空闲页、活跃/非活跃匿名页、文件页等，能帮你判断是缓存没回收干净，还是真的物理内存见底
结尾常带 page allocation failure，附带调用栈（如 alloc_pages_current），说明哪个子系统（比如 ext4、net、kvm）在申请内存时卡住了

注意：syslog 可能因缓冲区满而丢掉早期 OOM 日志；建议用 dmesg -T 查看带时间戳的原始输出，别只信 rsyslog 转发后的记录。

为什么有时候 kill 了进程，内存还是没释放

这不是 OOM Killer 失效，而是进程退出后，其占用的内存未必立刻归还给系统：

AIBox 一站式AI创作平台

AIBox365一站式AI创作平台，支持ChatGPT、GPT4、Claue3、Gemini、Midjourney等国内外大模型

下载

如果进程持有大量 page cache（比如刚做完大文件读写），这些页面属于“可回收”，但内核可能暂未触发回写或释放
进程用了 mmap(MAP_ANONYMOUS) 或 brk 分配的匿名页，kill 后会立即标记为可回收，但实际回收时机取决于 lru_lock 竞争和当前内存压力
容器场景下，cgroup v1 的 memory subsystem 存在延迟统计问题：进程死后，memory.usage_in_bytes 可能滞后几秒才下降；cgroup v2 改进明显，但需确认内核版本 ≥ 4.5 且已启用

验证方法：在 OOM 后立刻执行 free -h 和 cat /sys/fs/cgroup/memory/memory.usage_in_bytes（v1）或 cat /sys/fs/cgroup/memory.current（v2），对比变化节奏。

如何降低误杀关键服务的概率

不能靠禁用 OOM Killer（vm.oom_kill = 0 会导致 kernel panic），得用组合策略：

对数据库、消息队列等核心服务，在启动前设置 echo -999 > /proc/PID/oom_score_adj（需在 fork 后、exec 前设，或用 systemd 的 OOMScoreAdjust=-999）
限制单个服务最大内存用量，比依赖 OOM Killer 更可靠：systemd 用 MemoryLimit=，Docker 用 --memory，Kubernetes 用 resources.limits.memory
避免全局 vm.swappiness=0：虽然它减少 swap 使用，但也抑制了内核对 file cache 的回收积极性，反而让 OOM 更易触发；建议保持默认值 60 或设为 1～10
监控要覆盖 /proc/meminfo 中的 MemAvailable（不是 MemFree），它反映真正可用内存，包含可快速回收的 cache；低于阈值时提前告警，比等 OOM 更可控

OOM 的本质是资源配额与使用节奏错配，日志只是结果，真正要调的是内存预算、回收策略和进程韧性设计。

Linux进程CPU打满_热点函数定位

Linux系统下对新磁盘进行格式化及卷标设置操作流程详解

Linux网络丢包严重_丢包原因定位与分析方法

Linux 磁盘吞吐低_顺序IO优化

Linux 数据库日志分析方法

相关专题

堆和栈的区别

堆和栈的区别：1、内存分配方式不同；2、大小不同；3、数据访问方式不同；4、数据的生命周期。本专题为大家提供堆和栈的区别的相关的文章、下载、课程内容，供大家免费下载体验。

447

2023.07.18

堆和栈区别

堆(Heap)和栈(Stack)是计算机中两种常见的内存分配机制。它们在内存管理的方式、分配方式以及使用场景上有很大的区别。本文将详细介绍堆和栈的特点、区别以及各自的使用场景。php中文网给大家带来了相关的教程以及文章欢迎大家前来学习阅读。

606

2023.08.10

k8s和docker区别

k8s和docker区别有抽象层次不同、管理范围不同、功能不同、应用程序生命周期管理不同、缩放能力不同、高可用性等等区别。本专题为大家提供k8s和docker区别相关的各种文章、以及下载和课程。

280

2023.07.24

docker进入容器的方法有哪些

docker进入容器的方法：1. Docker exec；2. Docker attach；3. Docker run --interactive --tty；4. Docker ps -a；5. 使用 Docker Compose。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

516

2024.04.08

docker容器无法访问外部网络怎么办

docker 容器无法访问外部网络的原因和解决方法：配置 nat 端口映射以将容器端口映射到主机端口。根据主机兼容性选择正确的网络驱动（如 host 或 overlay）。允许容器端口通过主机的防火墙。配置容器的正确 dns 服务器。选择正确的容器网络模式。排除主机网络问题，如防火墙或连接问题。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

417

2024.04.08