Linux服务崩溃自动重启靠systemd的Restart策略,非外部脚本;配置Restart=always/on-failure、RestartSec、StartLimitIntervalSec和StartLimitBurst可实现自我修复与防雪崩。

Linux服务崩溃后能自动重启,核心靠的是systemd的Restart策略,不是靠外部脚本或定时任务——后者低效且难维护。只要配置得当,服务异常退出后几秒内就能恢复,真正实现“自我修复”。
确认服务由systemd管理
绝大多数现代Linux发行版(Ubuntu 16.04+、CentOS 7+、Debian 8+)默认使用systemd。先验证你的服务是否走这套机制:
- 运行 systemctl status 服务名(如
systemctl status nginx),看到Loaded: loaded (...)行,说明是systemd服务 - 若提示
Unit xxx.service could not be found,可能是旧式SysV init脚本,需先转换为.service文件再配置重启逻辑
在[Service]段添加重启策略
编辑对应.service文件(路径通常为 /lib/systemd/system/xxx.service 或 /etc/systemd/system/xxx.service),在[Service]区块下加入:
- Restart=always:任何退出都重启(包括正常exit 0)。适合Web服务器、API网关等无状态服务
- Restart=on-failure:仅当进程非零退出、被信号终止(如SIGSEGV)、超时或OOM kill时重启。更适合数据库类有状态服务
- RestartSec=5:每次重启前等待5秒,防止启动失败引发高频循环(可设为3~30秒,视服务冷启动时间调整)
限制重启频率,防雪崩
光加Restart不够,还要防故障持续时无限重启拖垮系统。在同一个[Service]块中补充:
- StartLimitIntervalSec=60:统计周期为60秒
- StartLimitBurst=3:该周期内最多重启3次
- 超出后,systemd会暂停重启并标记为
start-limit-hit,需人工介入排查根本原因
启用并验证配置
改完别忘了让systemd重新读取配置:
- sudo systemctl daemon-reload:重载所有unit文件
- sudo systemctl restart 服务名:重启服务使新策略生效
- sudo systemctl kill --signal=SIGSEGV 服务名:模拟崩溃(慎用于生产),观察是否在RestartSec设定时间内自动拉起
- 检查日志:journalctl -u 服务名 -n 20 -f,确认出现
Started ...和Starting ...交替记录










