NewSingleHostReverseProxy 仅支持单后端,无法直接负载均衡;需自定义 Director 实现轮询,并手动维护后端列表、健康检查与连接池配置。

为什么 net/http/httputil.NewSingleHostReverseProxy 不能直接做负载均衡
它只支持单后端,硬编码一个 url.URL,所有请求都发给同一个地址。想轮询或加权分发,必须自己接管 Director 函数,重写 req.URL 和 req.Host。
常见错误现象:panic: http: proxy error: dial tcp 127.0.0.1:8080: connect: connection refused —— 实际是后端列表为空或全不可达,但默认代理不校验健康状态,直接尝试连接失败。
- 必须手动维护后端地址列表(
[]*url.URL),不能依赖配置文件自动热加载 -
Director里改req.URL.Scheme和req.URL.Host时,漏掉req.URL.Path或req.URL.RawQuery会导致路径丢失 - 若后端用 HTTPS,需显式设置
Transport.TLSClientConfig,否则报x509: certificate signed by unknown authority
如何实现最简轮询(Round Robin)逻辑
核心是原子读写一个索引变量,每次代理前取下一个后端。别用锁,用 sync/atomic 更轻量。
使用场景:小流量内部服务、开发联调网关、无状态 API 聚合层。
立即学习“go语言免费学习笔记(深入)”;
示例关键片段:
var curIndex uint64
backends := []*url.URL{parse("http://10.0.1.10:8080"), parse("http://10.0.1.11:8080")}
<p>proxy := httputil.NewSingleHostReverseProxy(backends[0])
proxy.Director = func(req *http.Request) {
idx := atomic.AddUint64(&curIndex, 1) % uint64(len(backends))
u := backends[idx]
req.URL.Scheme = u.Scheme
req.URL.Host = u.Host
req.Host = u.Host
}- 不要在
Director里做阻塞操作(如 HTTP 健康检查),会卡住整个代理 goroutine - 如果后端数量变化,需重建
proxy实例,Director不支持运行时替换 - 注意
atomic.AddUint64返回的是新值,所以要先加再取模,避免索引越界
http.Transport 的超时和复用怎么影响负载均衡效果
默认 Transport 对每个后端建立独立连接池。如果后端地址不同但端口相同(如 http://a:8080 和 http://b:8080),连接不会复用 —— 这反而是好事,能真实隔离各后端压力。
性能影响明显的地方:
-
MaxIdleConnsPerHost设太小(如 2),高并发下频繁建连,CPU 和 TIME_WAIT 暴涨 -
IdleConnTimeout设太长(>90s),后端重启后旧连接还挂着,导致“黑屏”数秒 - 没设
ExpectContinueTimeout,大 Body 请求可能卡在 100-continue 等待,表现像随机超时
建议显式配置:
proxy.Transport = &http.Transport{
MaxIdleConnsPerHost: 100,
IdleConnTimeout: 30 * time.Second,
ExpectContinueTimeout: 1 * time.Second,
}健康检查不是可选项,而是上线前必填项
没有健康检查的负载均衡器,等于把故障扩散器部署到生产环境。Golang 标准库不提供内置机制,得自己跑 goroutine 定期探测。
容易踩的坑:
- 用
http.Get做探活,但没设Timeout,一个挂掉的后端拖垮整个检查周期 - 检查成功后没更新内存中的可用列表,还是按旧索引轮询,结果持续往宕机节点转发
- 多个 goroutine 并发修改后端列表,没加锁或没换原子指针,引发 panic: concurrent map read and map write
最简健壮做法:用 sync.Map 存后端 URL → 布尔状态,检查 goroutine 每 5 秒更新一次,Director 中只从 sync.Map 里取在线地址切片。
真正麻烦的从来不是轮询算法本身,而是你怎么定义“可用”——是 TCP 可连?HTTP 返回 2xx?还是 /health 接口耗时










