调高min_free_kbytes(如设为总内存1.5%~2.5%)可提前触发内存回收,避免OOM;增大watermark_scale_factor(建议30~50)拉宽水位差以保障大页分配;定期compact_memory减少外部碎片;调低vfs_cache_pressure抑制pagecache过度膨胀。

Linux频繁触发OOM Killer,往往不是内存真不够,而是内核在碎片化严重或水位设置不合理时“误判”为内存耗尽。关键在于让内核更早、更稳地回收内存,而不是等到最后一刻杀进程。
调高min_free_kbytes,提前启动内存回收
这是最直接有效的干预手段。默认值通常太小(比如几MB),导致内核直到空闲内存极低才开始异步回收,此时碎片已多、大页难分配,容易触发OOM。
- 建议设为总内存的1.5%~2.5%,例如64GB内存(65536MB ≈ 67108864KB),可设为1200000(约1.17GB)
- 临时生效:sysctl -w vm.min_free_kbytes=1200000
- 永久生效:写入/etc/sysctl.conf,追加vm.min_free_kbytes = 1200000,再运行sysctl -p
增大watermark_scale_factor,拉宽low与min水位差
low水位决定内核是否尝试回收大块连续内存(如用于透明大页或DMA)。若min和low靠得太近,系统很难腾出足够连续页,申请大内存时就容易失败并触发OOM。
- 默认值一般为10(对应总内存约0.1%),建议提高到30~50(视负载而定)
- 命令:sysctl -w vm.watermark_scale_factor=40
- 该值越大,内核越倾向保留更多“缓冲空间”来应对突发大内存请求,但会略微增加后台回收压力
定期触发内存规整,减少外部碎片
即使空闲内存充足,如果分散成大量小页(尤其在长期运行、频繁分配释放后),仍无法满足需要连续物理页的场景(如THP、网卡DMA、某些数据库操作)。
- 手动整理(业务低峰期执行):echo 1 > /proc/sys/vm/compact_memory
- 检查碎片程度:cat /proc/buddyinfo(看各阶空闲页数量,高阶页越少说明碎片越重)
- 对高频内存波动服务,可配合cron每2–4小时自动整理一次,但避免高峰时段
控制pagecache膨胀,避免缓存挤占可用页
大量pagecache本身不危险,但若其占据过多内存且释放滞后,又遇上碎片,就会让新进程申请失败。不能只看free -h的"available"值,要结合cat /proc/meminfo | grep -E "Cached|SReclaimable|MemAvailable"综合判断。
- 降低cache“粘性”:适当调低vm.vfs_cache_pressure(默认100,可试设为50~80)
- 紧急释放(慎用):echo 3 > /proc/sys/vm/drop_caches(仅限维护窗口,会短暂影响IO性能)
- 长期策略:确保min_free_kbytes足够高,使内核在cache膨胀前就主动回收










