Go应用健康检查核心是提供/healthz等标准HTTP端点,由Docker、Kubernetes或监控脚本探测并触发重启;Go只负责轻量无副作用的状态响应,不自行重启进程。

在 Go 应用中实现容器健康检查与自动重启异常服务,核心不是靠 Go 自身“重启进程”,而是通过标准健康检查接口(如 /healthz)配合外部机制(如 Docker、Kubernetes 或轻量级监控脚本)来探测并触发恢复。Go 负责提供可靠、低开销的健康端点;外部系统负责观察和干预。
提供标准化健康检查 HTTP 接口
这是所有自动恢复机制的基础。服务需暴露一个轻量、无副作用的端点,返回明确状态。
- 使用
net/http启动独立健康监听(避免主服务阻塞时健康端点也失效) - 响应应为纯文本或简单 JSON,HTTP 状态码优先:200 表示健康,5xx 表示异常
- 避免在健康检查中访问数据库、远程 API 或执行耗时逻辑;只检查关键内存状态、goroutine 泄漏标记、本地信号量等
示例:
http.HandleFunc("/healthz", func(w http.ResponseWriter, r *http.Request) {
// 检查是否收到过严重错误信号(由主业务逻辑设置)
if atomic.LoadInt32(&isCriticalError) == 1 {
http.Error(w, "critical error detected", http.StatusInternalServerError)
return
}
// 检查 goroutine 数是否突增(可选预警)
if n := runtime.NumGoroutine(); n > 500 {
http.Error(w, "too many goroutines", http.StatusServiceUnavailable)
return
}
w.WriteHeader(http.StatusOK)
w.Write([]byte("ok"))
})
利用 Docker 的 HEALTHCHECK 指令
Docker 原生支持周期性调用健康接口,并根据结果标记容器状态。一旦连续失败,可配合 restart policy 触发重启。
立即学习“go语言免费学习笔记(深入)”;
- 在
Dockerfile中添加:HEALTHCHECK --interval=10s --timeout=3s --start-period=30s --retries=3 \CMD curl -f http://localhost:8080/healthz || exit 1 - 运行时启用重启策略:
docker run --restart=on-failure:5 your-app(失败 5 次后停止)或--restart=unless-stopped - 注意:Docker 默认用容器网络命名空间执行命令,确保
curl可用且端口可访问(推荐用localhost+ 容器内端口)
在 Kubernetes 中配置 livenessProbe
K8s 将健康检查深度集成进生命周期管理,livenessProbe 失败会直接 kill 并重建 Pod。
- 在 Deployment YAML 中配置:
livenessProbe:
httpGet:
path: /healthz
port: 8080
initialDelaySeconds: 30
periodSeconds: 10
timeoutSeconds: 3
failureThreshold: 3
-
initialDelaySeconds避免启动未完成就误杀;failureThreshold × periodSeconds决定总容忍时间(如 3×10=30 秒) - 务必区分
livenessProbe(决定是否重启)和readinessProbe(决定是否接入流量),后者可更宽松
轻量自包含方案:Go 内部看门狗协程(慎用)
仅适用于单机、无编排器的简单场景。不推荐替代 Docker/K8s,但可用于快速验证或嵌入式环境。
- 启动一个后台 goroutine,定期用
http.Get请求自身/healthz - 连续多次失败后,调用
os.Exit(1)—— 依赖外部进程管理器(如 systemd、supervisord)拉起新实例 - 避免在 Go 内部 fork/exec 重启自己(易导致僵尸进程、资源泄漏、信号混乱)
关键提醒:Go 程序本身无法安全“重启自己”。真正的重启必须交由父进程或容器运行时完成。










