如何在Linux中监控服务 Linux systemd看门狗配置

P粉602998670

发布时间：2025-09-07 09:19:02

994人浏览过

来源于php中文网

原创

答案：systemd看门狗通过服务主动发送心跳信号实现智能监控，需配置type=notify和watchdogsec，并在应用中调用sd_notify()定期发送watchdog=1，确保服务异常时自动重启，提升系统韧性。

如何在linux中监控服务 linux systemd看门狗配置

在Linux中监控服务，尤其是确保它们始终在线且健康运行，这事儿我个人觉得，

systemd

自带的看门狗（watchdog）功能简直是不可或缺的利器。它不像那些复杂的外部监控系统，需要额外配置和资源，而是直接内嵌在服务管理的核心里，能让服务在出现问题时，实现一种非常优雅的“自我抢救”，大大提升了系统的韧性。

解决方案

要有效监控Linux服务，尤其是利用

systemd

的强大功能，核心在于配置其看门狗机制。这不仅仅是检查服务是否“活着”，更是确保它在逻辑上还在“工作”。当一个服务进程卡死、内存泄漏导致无响应，但进程本身还在运行，传统的进程监控可能就失效了。

systemd

看门狗的价值就在于此：它要求服务主动报告“我很好”，一旦服务停止报告，

systemd

就知道它出问题了，并能立即采取行动，比如重启服务。

首先，你需要修改你的

systemd

单元文件（

.service

文件）。在

[Service]

部分，关键的配置项是

Type=notify

和

WatchdogSec

。

Type=notify

告诉

systemd

，这个服务会通过

sd_notify()

函数来发送状态更新。而

WatchdogSec

则定义了一个超时时间，如果服务在这个时间内没有发送任何通知，

systemd

就会认为服务已经挂掉。

例如，对于一个名为

my-app.service

的服务：

[Unit]
Description=My Awesome Application
After=network.target

[Service]
Type=notify
ExecStart=/usr/local/bin/my-app-daemon
WatchdogSec=30s
Restart=on-failure
RestartSec=5s

[Install]
WantedBy=multi-user.target

这里，

WatchdogSec=30s

意味着

systemd

会在30秒内等待

my-app-daemon

发送一个“我活着”的信号。如果30秒内没有收到，

systemd

就会根据

Restart=on-failure

的策略，尝试重启服务。

RestartSec=5s

则定义了重启前的等待时间。

接下来，你的应用程序本身需要集成

systemd

的通知机制。这通常通过调用

sd_notify()

函数来实现。在应用程序启动时，可以发送一个

READY=1

的信号，告诉

systemd

服务已经准备就绪。然后，在服务的正常运行循环中，需要定期发送

WATCHDOG=1

的信号。这个信号就是告诉

systemd

：“我还在正常工作。”

例如，一个简单的Python守护进程可能这样实现：

import os
import time
from systemd.daemon import notify, Notification

# 应用程序启动时，发送READY信号
if os.environ.get('NOTIFY_SOCKET'):
    notify(Notification.READY)

# 主循环，定期发送WATCHDOG信号
while True:
    # 模拟服务的主要工作
    print("Application is running...")
    time.sleep(10) # 假设服务每10秒做一些事情

    # 每隔一段时间，发送WATCHDOG信号
    if os.environ.get('NOTIFY_SOCKET'):
        notify(Notification.WATCHDOG)

通过这种方式，

systemd

就不仅仅是监控一个进程ID是否存在，它实际上是与你的应用程序进行了一种“心跳”沟通。这让服务监控变得更加智能和可靠。

Systemd Watchdog的工作原理到底是什么？

Systemd Watchdog的魅力在于它不是被动地观察，而是主动地与服务“对话”。它的核心原理其实很简单，但非常有效。当你配置一个服务单元文件，比如设置了

Type=notify

和

WatchdogSec=30s

，

systemd

就会在服务启动后，开启一个内部定时器。这个定时器就是看门狗的“计时器”。

服务启动后，它需要通过

sd_notify()

这个API函数，向

systemd

发送特定格式的字符串。这些字符串通常包含键值对，比如

READY=1

表示服务已启动并准备就绪，而

WATCHDOG=1

则是告诉

systemd

：“我还在正常运行，请重置你的计时器！”

当服务发送

WATCHDOG=1

时，

systemd

就会重置那个30秒的内部计时器。如果在这个30秒的窗口期内，服务没有再次发送

WATCHDOG=1

，那么

systemd

就会认为这个服务已经“挂掉”了——它可能死锁了，或者陷入了某种无限循环，总之就是无法响应或处理任务了。一旦计时器超时，

systemd

就会根据你在单元文件中定义的

Restart=

策略（比如

Restart=on-failure

），立即采取行动，最常见的操作就是重启这个服务。

这里面有一个关键的环境变量

NOTIFY_SOCKET

。当

systemd

启动一个

Type=notify

的服务时，它会设置这个环境变量，指向一个

AF_UNIX

套接字路径。你的应用程序就是通过这个套接字与

systemd

通信的。

sd_notify()

函数内部就是向这个套接字发送消息。这种基于套接字的通信方式，保证了即使服务进程本身出现严重问题，只要它还能进行基本的系统调用，就有机会发出最后的“求救”信号。

所以，与其说

systemd

在监控，不如说它在等待服务的“心跳”。这种心跳机制，比单纯的PID检查要高级得多，它能发现那些“假死”的服务，确保系统的真正健康。

如何为你的服务配置Systemd Watchdog？

配置Systemd Watchdog，其实主要分两步走：首先是修改

systemd

单元文件，其次是调整你的应用程序代码。这两者缺一不可。

第一步：修改Systemd单元文件 (.service)

Kacha

KaCha是一款革命性的AI写真工具，用AI技术将照片变成杰作！

下载

找到你想要添加看门狗功能的服务对应的

.service

文件。通常它们位于

/etc/systemd/system/

或

/usr/lib/systemd/system/

。

在

[Service]

部分，你需要添加或修改以下几行：

Type=notify
: 这是告诉
```
systemd
```
你的服务会主动发送状态通知。如果你不设置这个，或者设置为
```
Type=simple
```
（默认值），那么
```
WatchdogSec
```
是不会生效的。
WatchdogSec=30s
: 设置看门狗的超时时间。这个值需要根据你的服务特性来定。如果服务处理的任务可能需要很长时间，这个值就应该设得长一些，避免误判。但也不能太长，否则服务挂了你很久都不知道。我一般会设置为服务最长处理时间的2-3倍，或者一个你觉得能容忍的宕机时间。
Restart=on-failure
: 这是一个很重要的策略。它告诉
```
systemd
```
，当服务非正常退出（比如崩溃）、或者被看门狗判定为超时时，就尝试重启它。你也可以设置为
```
Restart=always
```
，这样服务无论如何退出都会重启，但通常
```
on-failure
```
更符合看门狗的使用场景。
RestartSec=5s
: 这是
```
systemd
```
在尝试重启服务前会等待的时间。给服务一个喘息的机会，也避免了快速的重启循环。

一个示例单元文件可能长这样：

# /etc/systemd/system/my-custom-service.service
[Unit]
Description=My Custom Application Service
Documentation=https://example.com/docs
After=network.target

[Service]
ExecStart=/usr/local/bin/my-custom-app --config /etc/my-custom-app.conf
User=myuser
Group=myuser
Type=notify
WatchdogSec=45s
Restart=on-failure
RestartSec=10s

[Install]
WantedBy=multi-user.target

修改完单元文件后，记得要让

systemd

重新加载配置：

sudo systemctl daemon-reload

然后重启你的服务：

sudo systemctl restart my-custom-service.service

第二步：修改你的应用程序代码

这是看门狗能真正发挥作用的关键。你的应用程序需要周期性地向

systemd

发送“心跳”信号。具体实现方式取决于你使用的编程语言。

Python: 可以使用

systemd-python

库。

from systemd.daemon import notify, Notification
import os
import time

# 在服务启动时，发送READY信号
if os.environ.get('NOTIFY_SOCKET'):
    notify(Notification.READY)

# 模拟服务工作循环
while True:
    # 这里是你的应用程序核心逻辑
    print("Service is actively processing tasks...")
    time.sleep(20) # 假设任务周期是20秒

    # 每次完成一个周期或在某个检查点，发送WATCHDOG信号
    if os.environ.get('NOTIFY_SOCKET'):
        notify(Notification.WATCHDOG)
        print("Watchdog signal sent.")

C/C++: 可以直接使用

libsystemd

提供的

sd_notify()

函数。

#include <systemd/sd-daemon.h>
#include <stdio.h>
#include <unistd.h>

int main() {
    // 通知systemd服务已准备就绪
    sd_notify(0, "READY=1");
    printf("Service ready signal sent.\n");

    while (1) {
        // 模拟服务的主要工作
        printf("Service is running...\n");
        sleep(20); // 假设工作周期20秒

        // 定期发送WATCHDOG信号
        sd_notify(0, "WATCHDOG=1");
        printf("Watchdog signal sent.\n");
    }
    return 0;
}

编译时需要链接

libsystemd

：

gcc your_app.c -o your_app -lsystemd

Shell Script: 也可以通过

systemd-notify

命令来发送。

#!/bin/bash

# 通知systemd服务已准备就绪
systemd-notify --ready

while true; do
    # 模拟服务的主要工作
    echo "Service is running..."
    sleep 20 # 假设工作周期20秒

    # 定期发送WATCHDOG信号
    systemd-notify --status="Heartbeat OK" --watchdog
    echo "Watchdog signal sent."
done

记住，

WATCHDOG=1

的发送频率应该小于

WatchdogSec

的值。如果

WatchdogSec

是30秒，那么你的应用程序至少每29秒就应该发送一次心跳信号。稍微留一点裕量是明智的，比如每20秒发送一次。这样，即使系统负载高导致通知稍微延迟，也不会轻易触发看门狗。

配置Systemd Watchdog时，有哪些常见的“坑”和注意事项？

虽然Systemd Watchdog功能强大，但在实际配置和使用中，也确实有一些常见的“坑”和需要注意的地方，稍不留神就可能让其形同虚设，或者带来意想不到的问题。

Type=notify

的遗漏或误用： 这是最常见的错误。很多人在单元文件中设置了

WatchdogSec

，但忘记将

Type

设置为

notify

，或者错误地设置为

Type=simple

。在这种情况下，

systemd

根本不会期望服务发送任何通知，

WatchdogSec

也就完全无效了。服务挂了，

systemd

也只会傻傻地认为它还在运行。

2. 应用程序未实现

sd_notify()

或发送不及时： 看门狗是双向的。

systemd

在等待，你的应用程序必须主动发送。如果你的应用没有集成

sd_notify()

，或者集成是集成了，但因为某些逻辑错误、死锁，导致无法按时发送心跳信号，那么看门狗就会误判服务“死亡”，从而频繁重启。这不仅不能解决问题，反而可能让系统陷入不稳定的重启循环。

WatchdogSec

值设置不当：

过短： 如果你的服务偶尔会进行一些耗时操作（比如复杂的计算、长时间的数据库查询、文件I/O），而
```
WatchdogSec
```
设置得太短，那么在这些操作期间，服务可能无法及时发送心跳，导致看门狗误判并重启。这会严重影响服务的正常运行。
过长： 如果设置得太长，比如几分钟甚至几小时，那么当服务真正挂掉时，
```
systemd
```
需要很长时间才能发现并采取行动，这会延长服务的停机时间，失去看门狗的及时响应优势。找到一个平衡点很重要，既要容忍正常波峰，又要快速响应故障。

Restart

策略的选择：

Restart=

指令决定了

systemd

在看门狗超时后如何处理服务。如果设置为

Restart=no

，那么即使看门狗检测到问题，

systemd

也不会自动重启服务，这显然违背了使用看门狗的初衷。

Restart=on-failure

通常是最佳选择，它只在服务非正常退出或看门狗超时时重启。

5. 应用程序启动时的

READY=1

：虽然不是强制性的，但在服务启动时发送

READY=1

是一个好习惯。这能告诉

systemd

服务已经初始化完成，可以开始接受请求了。尤其对于那些启动时间较长的服务，可以避免

systemd

过早地认为服务启动失败。

6. 资源泄漏导致的看门狗循环： 如果你的服务存在内存泄漏、文件句柄泄漏等问题，导致每次重启后不久又再次挂掉，那么看门狗就会不断地重启服务，形成一个“重启-崩溃-重启”的恶性循环。这种情况下，看门狗暴露了问题，但并不能从根本上解决问题，你需要深入排查应用程序本身的bug。

7. 与其他监控工具的配合： Systemd Watchdog是一个非常优秀的“自愈”机制，但它并不能替代所有的外部监控。看门狗主要关注服务本身的存活和响应，它不会检查服务提供的API是否返回正确的数据，也不会监控系统的整体资源使用情况。因此，将其与Prometheus、Grafana、Zabbix等外部监控系统结合使用，提供更全面的系统健康视图，才是更稳妥的方案。看门狗处理内部的即时故障，外部监控则提供宏观的健康趋势和报警。

8. 调试困难： 当看门狗频繁触发时，调试可能会比较棘手。你需要仔细检查