
用 cron 启动定时巡检,但别直接写死时间表达式
Go 里最常用的定时库是 github.com/robfig/cron/v3,它支持标准 cron 语法,但直接写 "0 */6 * * *" 这类硬编码表达式会带来两个问题:配置不可变、测试难 mock。实际部署时,你得让运维能随时调间隔,比如从“每6小时”改成“每15分钟”,而不重编译。
实操建议:
- 把 cron 表达式抽成配置项,比如从环境变量读取
HEALTH_CHECK_CRON,默认值设为"0 */6 * * *" - 启动时校验表达式合法性,用
cron.Validate(),否则错配会导致整个定时器静默失败 - 避免用
cron.New()(v3 默认不带日志),改用cron.New(cron.WithLogger(...)),否则 panic 了你也看不到哪条 job 挂了 - 别在 cron job 里直接写长耗时逻辑——K8s API 调用可能卡住,必须加超时和 context 控制
调 client-go 查集群状态时,context.WithTimeout 是必选项
巡检本质是批量调 K8s API:查 nodes 状态、pods 的 Phase、coredns 是否 ready、etcd 成员健康……这些请求一旦没超时控制,一个节点网络抖动就能拖垮整个巡检循环,甚至阻塞后续定时任务。
常见错误现象:
立即学习“go语言免费学习笔记(深入)”;
-
Get https://k8s-api:443/api/v1/nodes: dial tcp 10.96.0.1:443: i/o timeout—— 没设 context,goroutine 卡死 - 巡检报告里反复出现 “unknown” 状态,其实是 client 请求被 kube-apiserver 限流后没做重试或降级
实操建议:
- 每个 API 调用前都套一层
ctx, cancel := context.WithTimeout(context.Background(), 15*time.Second),用完立刻cancel() - 对非关键资源(比如 events)可降级处理:超时就跳过,不中断主巡检流
- 用
clientset.CoreV1().Nodes().List(ctx, metav1.ListOptions{Limit: 500}),别漏掉Limit,大集群不设 limit 容易 OOM
生成 HTML 报告时,别手拼字符串,用 html/template + 预定义结构体
巡检结果要发邮件或存文件,很多人第一反应是 "<tr>
<td>"+node.Name+"</td>..." 拼接,这在 Go 里极难维护:样式改一次全重写,中文乱码、XSS 注入、表格嵌套错位全是坑。<p>使用场景:</p>
<ul>
<li>需要高亮显示 <code>NotReady 节点(红色背景)
实操建议:
- 定义一个
ReportData结构体,字段如Timestamp time.Time、Nodes []NodeStatus、FailedPods map[string][]corev1.Pod - 模板里用
{{.Timestamp.Format "2006-01-02 15:04:05 MST"}},别用time.Now().String() - 渲染前调
template.Execute(&buf, data),别用template.ExecuteString—— 后者不检查类型,字段名写错 runtime 才报错
巡检失败时,log.Printf 不够,得区分 error 类型并触发告警通道
单纯往 stdout 打 log.Printf("failed to list pods: %v", err) 对自动化毫无意义。你得知道这是临时网络故障(可忽略),还是 RBAC 权限缺失(需人工介入),或是证书过期(必须立刻响应)。
性能 / 兼容性影响:
- 高频打印 full error stack 会刷爆日志系统,尤其 etcd 健康检查失败时,
grpc: failed to unmarshal the received message可能每秒打几十条 - 如果所有错误都走同一个 webhook,告警风暴会让值班人直接 mute 频道
实操建议:
- 用 errors.Is() 判断底层错误类型:
errors.Is(err, context.DeadlineExceeded)→ 降级记录;errors.As(err, &statusErr) && statusErr.ErrStatus.Code == 403→ 立即发钉钉告警 - 对同一类错误加滑动窗口计数,比如 5 分钟内连续 3 次
Unauthorized,才触发告警,避免单次抖动误报 - 报告文件名带上
healthcheck-<code>git rev-parse --short HEAD-20240520-142305.html,方便回溯代码版本
真正麻烦的不是写完巡检,而是当某天 client-go 升级到 v0.29,Node.Status.Conditions 字段语义变了,或者集群启用了 ServerSideApply 导致 patch 行为不一致——这些细节不会报错,但会让报告里的“健康”二字彻底失效。










