0

0

systemd-oomd 杀错进程或不杀的优先级/score 配置经验

舞夢輝影

舞夢輝影

发布时间:2026-01-25 19:04:02

|

882人浏览过

|

来源于php中文网

原创

systemd-oomd 不依赖 /proc/*/oom_score_adj 直接排序,而是综合 OOMScoreAdj、cgroup v2 内存压力、cgroup 层级权重及关键进程标记来判定优先级;要避免被杀,需设 OOMScoreAdjust=-1000 并配合 MemoryMax、MemoryLow、独立 cgroup 及启用 systemd-oomd。

systemd-oomd 杀错进程或不杀的优先级/score 配置经验

systemd-oomd 的进程优先级判定依据是 OOMScoreAdj 和内存压力信号

systemd-oomd 不读取传统内核 OOM killer 的 /proc/*/oom_score_adj 值做直接排序,而是结合:
– 进程的 OOMScoreAdj 设置(范围 -1000 ~ +1000)
– 实时内存压力指标(来自 cgroup v2 memory.pressure)
– 进程所属 cgroup 的层级与权重(如用户会话、服务 scope)
– 是否为“关键进程”(例如标记了 MemoryLimit=OOMScoreAdjust= 的 service)
它默认更倾向杀死低优先级、高内存占用、且处于高压力 cgroup 中的进程,而非单纯看谁的 OOMScoreAdj 数值最高。

如何让某个进程「不被 systemd-oomd 杀」:设负值 + 锁定 cgroup 资源

仅设 OOMScoreAdjust=-1000 不够可靠——systemd-oomd 会降权但不跳过;必须配合资源约束和 cgroup 稳定性措施:

  • 在对应 unit 文件中设置 OOMScoreAdjust=-1000(注意是负值,越小越不易杀)
  • 显式限制内存上限:MemoryMax=2G(避免该进程拖垮整个 cgroup)
  • 启用内存压控:MemoryLow=512M,让内核提前回收其 page cache,降低压力传导
  • 确保该 service 运行在独立 scope 或 slice 下(避免被父 cgroup 的压力波及)
  • 禁用自动 OOM 处理(谨慎):OOMPolicy=continue(仅适用于你完全接管内存管理的场景)

为什么改了 OOMScoreAdj 却没效果?常见配置盲区

systemd-oomd 只作用于启用 cgroup v2 且启用了 SystemMaxUse= 类内存策略的系统;以下情况会导致配置失效:

Mulan AI
Mulan AI

画布式AI视频创作平台,轻松制作爆款视频

下载
  • 系统仍运行在 cgroup v1 模式(检查 cat /proc/1/environ | tr '\0' '\n' | grep systemd 中是否有 systemd.unified_cgroup_hierarchy=1
  • unit 启动后被动态移动到其他 cgroup(例如被 systemd-run --scope 临时包裹,或桌面环境 session manager 重挂载)
  • OOMScoreAdjust= 写在了错误的 unit 类型里:对 .service 有效,但对 .slice.scope 无效(后者需用 DefaultLimitMEM= 或 cgroup 属性接口)
  • systemd-oomd 本身被禁用:sudo systemctl is-active systemd-oomd 返回 inactive,需 sudo systemctl enable --now systemd-oomd

验证和调试:别只看日志,要查实时 score 和 pressure

journalctl 日志(如 systemd-oomd[...]: Killed process ...)只告诉你“结果”,无法反映决策逻辑。真要定位误杀,得实时比对:

  • 查当前各进程 OOMScoreAdj:awk '/^OOMScoreAdj:/ {print $2}' /proc/*/status 2>/dev/null | sort -n | tail -10
  • 查所属 cgroup 的压力等级:cat /sys/fs/cgroup/user.slice/memory.pressure(关注 somefull 字段的 10s/60s/600s 均值)
  • 看 systemd-oomd 内部评估:sudo systemd-oomdctl status(显示当前活跃的 high-pressure cgroups 和 top candidate 进程)
  • 模拟压力测试:stress-ng --vm 2 --vm-bytes 3G --timeout 30s,再立刻执行上述检查

真正容易被忽略的是:systemd-oomd 的评分每 2 秒刷新一次,且会平滑衰减历史压力;短时峰值可能被忽略,而持续中低压力却可能触发更激进的回收——这和传统 OOM killer 的瞬时快照逻辑完全不同。

相关专题

更多
python中print函数的用法
python中print函数的用法

python中print函数的语法是“print(value1, value2, ..., sep=' ', end=' ', file=sys.stdout, flush=False)”。本专题为大家提供print相关的文章、下载、课程内容,供大家免费下载体验。

186

2023.09.27

c语言中null和NULL的区别
c语言中null和NULL的区别

c语言中null和NULL的区别是:null是C语言中的一个宏定义,通常用来表示一个空指针,可以用于初始化指针变量,或者在条件语句中判断指针是否为空;NULL是C语言中的一个预定义常量,通常用来表示一个空值,用于表示一个空的指针、空的指针数组或者空的结构体指针。

235

2023.09.22

java中null的用法
java中null的用法

在Java中,null表示一个引用类型的变量不指向任何对象。可以将null赋值给任何引用类型的变量,包括类、接口、数组、字符串等。想了解更多null的相关内容,可以阅读本专题下面的文章。

437

2024.03.01

sort排序函数用法
sort排序函数用法

sort排序函数的用法:1、对列表进行排序,默认情况下,sort函数按升序排序,因此最终输出的结果是按从小到大的顺序排列的;2、对元组进行排序,默认情况下,sort函数按元素的大小进行排序,因此最终输出的结果是按从小到大的顺序排列的;3、对字典进行排序,由于字典是无序的,因此排序后的结果仍然是原来的字典,使用一个lambda表达式作为key参数的值,用于指定排序的依据。

389

2023.09.04

session失效的原因
session失效的原因

session失效的原因有会话超时、会话数量限制、会话完整性检查、服务器重启、浏览器或设备问题等等。详细介绍:1、会话超时:服务器为Session设置了一个默认的超时时间,当用户在一段时间内没有与服务器交互时,Session将自动失效;2、会话数量限制:服务器为每个用户的Session数量设置了一个限制,当用户创建的Session数量超过这个限制时,最新的会覆盖最早的等等。

315

2023.10.17

session失效解决方法
session失效解决方法

session失效通常是由于 session 的生存时间过期或者服务器关闭导致的。其解决办法:1、延长session的生存时间;2、使用持久化存储;3、使用cookie;4、异步更新session;5、使用会话管理中间件。

747

2023.10.18

cookie与session的区别
cookie与session的区别

本专题整合了cookie与session的区别和使用方法等相关内容,阅读专题下面的文章了解更详细的内容。

88

2025.08.19

java break和continue
java break和continue

本专题整合了java break和continue的区别相关内容,阅读专题下面的文章了解更多详细内容。

256

2025.10.24

c++ 根号
c++ 根号

本专题整合了c++根号相关教程,阅读专题下面的文章了解更多详细内容。

58

2026.01.23

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Laravel 5.8 中文文档手册
Laravel 5.8 中文文档手册

共74课时 | 87.2万人学习

SESSION实现登录与验证
SESSION实现登录与验证

共10课时 | 9.7万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号