0

0

Linux 集群监控与故障自动恢复

舞姬之光

舞姬之光

发布时间:2026-02-23 17:44:02

|

581人浏览过

|

来源于php中文网

原创

真正可用的systemd服务自启配置需组合restart=on-failure、restartsec=5、startlimitintervalsec=60、startlimitburst=3和restartpreventexitstatus=255,避免雪崩并留人工介入窗口。

linux 集群监控与故障自动恢复

systemd 实现服务崩溃后自动拉起,但别只写 Restart=always

单纯加 Restart=always 很容易导致雪崩:服务反复崩溃又重启,把日志打满、端口占死、甚至拖垮节点。真正可用的配置必须叠加限制条件。

  • Restart=on-failure 更稳妥——只在非 0 退出码或被信号终止时重启,避免正常退出后误拉起
  • 务必配 StartLimitIntervalSec=60StartLimitBurst=3,防止 1 分钟内连续失败超 3 次就彻底停服,留出人工介入窗口
  • 如果服务依赖网络或远程存储,加 RestartPreventExitStatus=255(比如 curl 超时返回 255)可避免把临时网络抖动当故障处理
  • 示例片段:
    [Service]
    Restart=on-failure
    RestartSec=5
    StartLimitIntervalSec=60
    StartLimitBurst=3
    RestartPreventExitStatus=255

集群级进程存活检测不能只靠 ps aux | grep

这种写法在容器化或 systemd 管理环境下极不可靠:进程名被截断、grep 自身混入结果、cgroup 隔离后 ps 看不到跨 namespace 进程。

  • 优先用 systemctl is-active <code>service_name 判断服务状态,它走的是 dbus 协议,准确反映 systemd 管理的真实生命周期
  • 对非 systemd 进程(如裸跑的 Python 脚本),改用 pgrep -f "python.*my_worker.py"-f 匹配完整命令行,比 grep 少一层管道污染
  • 在监控脚本里加超时控制:timeout 5 systemctl is-active myapp.service || echo "timeout",避免因 dbus 卡住导致整个巡检阻塞

node_exporter 默认指标不够用,关键集群维度得自己加

默认采集的 CPU、内存、磁盘指标只能告诉你“机器快挂了”,但无法定位是哪个服务或租户吃掉了资源。集群监控必须带标签下钻能力。

稿定PPT
稿定PPT

海量PPT模版资源库

下载
  • --collector.textfile.directory 配合定时脚本,把每个服务的 docker stats --no-streamkubectl top pod 结果写成 .prom 文件,让 node_exporter 暴露为自定义指标(如 container_cpu_usage_cores{job="myapp", instance="node-01"}
  • 禁用冗余采集器节省开销:--no-collector.wifi --no-collector.zfs,ZFS 在 Linux 集群几乎不用,WiFi 更是干扰项
  • 注意时间戳精度:文本文件里每行末尾加 # TYPE xxx gauge 注释,并确保写入时间与采集周期对齐,否则 Prometheus 抓取会丢点

自动恢复脚本里调 curlssh 前,先做连接性兜底

故障恢复链路上任何一环超时或失败,都会让“自动恢复”变成“自动失联”。不能假设网络永远通、目标端口永远开、密钥永远有效。

  • nc -z -w 3 target-host 22 && ssh ... 替代裸 ssh,3 秒内连不上就跳过,不卡住后续步骤
  • 调用 API 前先 curl -sfI -m 5 https://api.example.com/health-s 静默错误、-f 失败不输出、-m 5 限总耗时,靠返回码判断是否值得继续
  • 所有远程操作加 set -eset -o pipefail,但关键步骤后立刻用 || true 显式忽略非致命错误(比如清理旧日志失败不影响主流程)

集群自动恢复最麻烦的不是写脚本,而是厘清“什么算恢复成功”——是进程起来了?端口能连了?还是第一个 HTTP 请求返回 200?这个判定标准一旦模糊,所有自动逻辑都会在边界 case 上失效。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
curl_exec
curl_exec

curl_exec函数是PHP cURL函数列表中的一种,它的功能是执行一个cURL会话。给大家总结了一下php curl_exec函数的一些用法实例,这个函数应该在初始化一个cURL会话并且全部的选项都被设置后被调用。他的返回值成功时返回TRUE, 或者在失败时返回FALSE。

452

2023.06.14

linux常见下载安装工具
linux常见下载安装工具

linux常见下载安装工具有APT、YUM、DNF、Snapcraft、Flatpak、AppImage、Wget、Curl等。想了解更多linux常见下载安装工具相关内容,可以阅读本专题下面的文章。

182

2023.10.30

k8s和docker区别
k8s和docker区别

k8s和docker区别有抽象层次不同、管理范围不同、功能不同、应用程序生命周期管理不同、缩放能力不同、高可用性等等区别。本专题为大家提供k8s和docker区别相关的各种文章、以及下载和课程。

265

2023.07.24

docker进入容器的方法有哪些
docker进入容器的方法有哪些

docker进入容器的方法:1. Docker exec;2. Docker attach;3. Docker run --interactive --tty;4. Docker ps -a;5. 使用 Docker Compose。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

513

2024.04.08

docker容器无法访问外部网络怎么办
docker容器无法访问外部网络怎么办

docker 容器无法访问外部网络的原因和解决方法:配置 nat 端口映射以将容器端口映射到主机端口。根据主机兼容性选择正确的网络驱动(如 host 或 overlay)。允许容器端口通过主机的防火墙。配置容器的正确 dns 服务器。选择正确的容器网络模式。排除主机网络问题,如防火墙或连接问题。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

412

2024.04.08

docker镜像有什么用
docker镜像有什么用

docker 镜像是预构建的软件组件,用途广泛,包括:应用程序部署:简化部署,提高移植性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

447

2024.04.08

Docker容器化部署与DevOps实践
Docker容器化部署与DevOps实践

本专题面向后端与运维开发者,系统讲解 Docker 容器化技术在实际项目中的应用。内容涵盖 Docker 镜像构建、容器运行机制、Docker Compose 多服务编排,以及在 DevOps 流程中的持续集成与持续部署实践。通过真实场景演示,帮助开发者实现应用的快速部署、环境一致性与运维自动化。

23

2026.02.11

http500解决方法
http500解决方法

http500解决方法有检查服务器日志、检查代码错误、检查服务器配置、检查文件和目录权限、检查资源不足、更新软件版本、重启服务器或寻求专业帮助等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

470

2023.11.09

pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法
pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法

本专题系统整理pixiv网页版官网入口及登录访问方式,涵盖官网登录页面直达路径、在线阅读入口及快速进入方法说明,帮助用户高效找到pixiv官方网站,实现便捷、安全的网页端浏览与账号登录体验。

1127

2026.02.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
PostgreSQL 教程
PostgreSQL 教程

共48课时 | 9.6万人学习

Git 教程
Git 教程

共21课时 | 3.8万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号