go 的 http.client 默认不重试,需手动实现带指数退避的重试逻辑;必须检查 err != nil,因网络错误(如 timeout、connection refused)导致 resp 为 nil,直接访问 statuscode 会 panic;可重试判断应基于 net.error.temporary() 或 context.deadlineexceeded。

Go 的 http.Client 默认不重试,错误得自己捕获
Go 标准库的 http.Client 在遇到网络错误(如 connection refused、i/o timeout、net/http: request canceled)时,直接返回非 nil 错误,**不会自动重试**。这意味着你调用 client.Do(req) 后,必须显式检查 err != nil,否则程序可能 panic 或静默失败。
常见误区是只检查响应状态码(如 resp.StatusCode >= 400),却忽略底层连接层错误——这类错误根本不会产生 *http.Response,resp 为 nil,直接对 resp.StatusCode 解引用会 panic。
- 典型错误类型包括:
*url.Error(包装了net.OpError)、context.DeadlineExceeded、context.Canceled - 判断是否可重试,应优先看底层错误是否属于临时性网络问题:
err.(net.Error).Temporary()或errors.Is(err, context.DeadlineExceeded) - 不要依赖错误字符串匹配(如
strings.Contains(err.Error(), "timeout")),不稳定且易被干扰
手动实现带退避的重试逻辑,避免暴力轮询
标准库不提供重试,但可以用 time.AfterFunc 或循环 + time.Sleep 实现。关键是要加入指数退避(exponential backoff),防止雪崩式重连。
例如:第 1 次失败后等 100ms,第 2 次等 200ms,第 3 次等 400ms……上限建议设为 1–2 秒,总重试次数通常不超过 3–5 次。
立即学习“go语言免费学习笔记(深入)”;
- 每次重试前应新建
*http.Request,因为req.Body可能已被消费或关闭 - 若使用
context.WithTimeout,每次重试需创建新 context,否则旧 deadline 仍生效 - 对 POST/PUT 等有 body 的请求,要确保
req.Body可重放(比如用bytes.NewReader包装原始数据,而非直接传文件句柄)
简短示例:
for i := 0; i < maxRetries; i++ {
resp, err := client.Do(req)
if err == nil {
return resp, nil
}
if !isRetryable(err) {
return nil, err
}
if i == maxRetries-1 {
return nil, err
}
time.Sleep(time.Duration(1<<i) * 100 * time.Millisecond) // 100ms, 200ms, 400ms...
}用第三方库如 backoff/v4 更安全可控
手写退避容易出错(比如忘记重置计数、漏掉 context 取消传播)。推荐用成熟库,比如 github.com/cenkalti/backoff/v4,它内置 jitter、支持 context、可配置最大重试时间与次数。
它把“是否重试”和“等待多久”解耦:你只需提供一个操作函数,库负责执行并按策略重试。
- 注意设置
backoff.WithContext(ctx),确保上层 cancel 能中断整个重试流程 -
backoff.WithMaxRetries(3)和backoff.WithMaxInterval(2 * time.Second)需配合使用,避免单次等待过长 - 别在重试函数里复用同一
http.Request;每次调用都应构造新请求,尤其当 body 是io.ReadCloser类型时
超时控制必须分层:客户端、请求、DNS 三级隔离
很多连接错误其实源于超时配置不合理。Go 的 http.Client 超时不是单一参数,而是三层:
-
Client.Timeout:整个请求生命周期(含 DNS、连接、TLS 握手、发送、读响应头),**慎用**——它会掩盖具体阶段失败原因 -
Transport.DialContext+net.Dialer.Timeout:控制建立 TCP 连接的最长时间 -
Transport.TLSHandshakeTimeout:单独控制 TLS 握手时限(对 HTTPS 必须显式设,否则默认 10s) - 更细粒度的,用
context.WithTimeout包裹单次Do()调用,便于 per-request 控制
DNS 解析超时容易被忽略:net.DefaultResolver.PreferGo = true 并设置 net.Resolver.StrictErrors = true 可提升可控性,但生产环境建议用自定义 net.Resolver 并设 Timeout。
真正难调试的是那些“卡住但没报错”的情况——往往是因为某一层超时没设,导致 goroutine 泄露。务必每层都设限,且日志中记录触发的是哪一层超时。










