Go语言网络连接异常处理需分离逻辑、指数退避重连、结构化日志;封装带重试的dial函数,用context控制生命周期,区分临时性(可重试)与永久性错误(立即停止)。

Go 语言中处理网络连接异常、实现自动重连并记录错误日志,关键在于:分离连接逻辑与业务逻辑、用指数退避控制重试节奏、统一错误分类与结构化日志输出。
封装可重连的客户端连接
不要在每次请求时裸写 dial,而是封装一个带重试机制的连接初始化函数。使用 net.DialTimeout 或 net.DialContext 配合 context.WithTimeout 控制单次拨号超时,并用指数退避(如 1s → 2s → 4s → 8s)避免雪崩式重试。
- 定义重试参数:最大重试次数(如 5)、初始延迟(如 100ms)、退避因子(通常为 2)
- 每次失败后 Sleep 对应延迟,再尝试;成功则重置延迟
- 对 EOF、connection refused、timeout 等不同错误类型做区分处理(例如 DNS 失败不重试,连接拒绝可重试)
用 context 控制重连生命周期
把重连逻辑放入 goroutine 时,必须绑定 context.Context。主流程可通过 cancel 主动终止重连循环,避免 goroutine 泄漏。例如启动一个长连接客户端时:
- 传入带 cancel 的 context,当服务关闭或配置变更时调用 cancel
- 在重连循环中 select 监听
ctx.Done(),退出前清理资源(如关闭已建立的 conn) - 避免用
time.Sleep阻塞整个 goroutine,改用time.After+ select 实现可中断等待
结构化记录连接错误日志
别用 log.Printf 打散点日志。推荐用 zap 或 zerolog 输出结构化日志,包含:错误类型、目标地址、重试次数、耗时、底层 err.Error() 和 stack trace(开发环境)。
立即学习“go语言免费学习笔记(深入)”;
- 对每次重连失败单独打一条 ERROR 日志,带上
"attempt": 3, "addr": "api.example.com:443" - 连接成功时打 INFO 日志,说明“reconnected after 3 attempts”
- 对连续失败(如 5 次全失败)触发告警级日志(WARN 或 ERROR),提示人工介入
区分临时性错误与永久性错误
不是所有错误都该重试。需根据错误底层原因判断是否继续重连:
- 临时性错误:
net.OpError中的timeout、connection refused、i/o timeout—— 可重试 - 永久性错误:DNS 解析失败(
no such host)、证书验证失败(x509: certificate signed by unknown authority)、协议不支持 —— 应立即停止重试并报错 - 用
errors.Is(err, context.DeadlineExceeded)或字符串匹配(谨慎)辅助判断,优先用标准 error 判断函数










