滚动更新需手动实现信号监听与socket传递;用SIGUSR2而非SIGHUP避免系统拦截;关键在fd继承、新进程就绪判断及优雅退出。

滚动更新在 Golang 微服务中不是语言内置能力,而是依赖进程管理、信号处理和部署协同实现的;直接调用 os.Exit() 或暴力杀进程必然导致请求中断,必须靠 syscall.SIGUSR2 或 SIGHUP 配合优雅退出逻辑。
如何让 Go 进程响应 SIGUSR2 实现平滑重启
Go 本身不自动处理信号升级,需手动监听并触发新进程启动 + 老进程等待退出。关键点是父子进程间通过文件描述符传递监听 socket(即 net.Listener),避免端口被抢占。
- 主进程启动时用
net.Listen("tcp", addr)创建 listener,并用l.(*net.TCPListener).File()提取底层*os.File - 收到
syscall.SIGUSR2后,用exec.Command启动新进程,同时把*os.File通过ExtraFiles传入子进程 - 子进程启动后,从
os.Args[0]解析传入的listenerFD(如3),再调用net.FileListener(os.NewFile(uintptr(fd), ""))恢复监听 - 老进程在确认新进程已就绪(例如通过 HTTP 健康检查或固定延迟)后,停止接受新连接、等待活跃请求完成,再退出
package mainimport ( "net" "net/http" "os" "os/exec" "os/signal" "syscall" "time" )
func main() { l, _ := net.Listen("tcp", ":8080") srv := &http.Server{Handler: http.HandlerFunc(func(w http.ResponseWriter, r *http.Request) { w.Write([]byte("ok")) })}
go srv.Serve(l) sigChan := make(chan os.Signal, 1) signal.Notify(sigChan, syscall.SIGUSR2) for range sigChan { // 传递 listener fd 给新进程 file, _ := l.(*net.TCPListener).File() cmd := exec.Command(os.Args[0]) cmd.ExtraFiles = []*os.File{file} // 新进程通过 os.Args[1] 获取 fd 编号(如 "3") cmd.Args = append([]string{os.Args[0], "3"}, os.Args[1:]...) cmd.Start() // 等待新进程 ready(简化为 sleep,生产应加健康探针) time.Sleep(500 * time.Millisecond) // 优雅关闭:不再接受新连接,等待活跃请求 srv.Close() os.Exit(0) }}
为什么不能只用 SIGHUP?
SIGHUP在大多数 Linux 发行版中默认被 systemd 或 supervisord 拦截并用于重载配置,而非重启进程;若未显式配置,它可能被忽略或触发非预期行为(比如仅 reload 日志路径)。而SIGUSR2是用户自定义信号,语义清晰、干扰少,适合做“热升级”指令。立即学习“go语言免费学习笔记(深入)”;
- systemd service 文件中需设置
KillSignal=SIGTERM,避免systemctl restart直接触发SIGKILL - 若用
supervisord,需在[program:x]下配置stopsignal=TERM和stopsignal=USR2(注意版本支持) - 容器环境(如 Kubernetes)中,
kill -USR2 $(pidof mysvc)必须在容器内执行,不能靠kubectl rollout restart自动触发——后者本质是重建 Pod,不属于滚动更新的进程级语义
滚动更新失败时最常见的三个坑
真实线上故障往往不出现在代码逻辑,而卡在系统层或部署链路。
-
socket 文件描述符未正确继承:子进程读取os.NewFile(uintptr(fd), "")后未调用SetDeadline或SetKeepAlive,导致连接超时或复位 -
新进程启动失败但父进程已退出:缺少对cmd.Start()错误检查,也未监控子进程是否真正 bind 成功,结果出现服务空白期 -
健康检查时间窗口太短:Kubernetes 的readinessProbe初始延迟(initialDelaySeconds)小于新进程加载配置+warmup 时间,导致流量被切到未就绪实例
真正的滚动更新难点不在 Go 怎么写,而在信号怎么传、fd 怎么交、健康状态怎么判;漏掉任意一环,都会把“滚动”变成“中断”。










