go服务应使用zap+json输出日志到文件,由filebeat采集并转发至logstash或es;需确保trace_id等字段在go层结构化输出、es字段类型设为keyword,并避免logstash中使用grok解析已结构化的json日志。

Go 服务怎么把日志发给 Logstash 或 Filebeat
Go 程序默认不带日志转发能力,得自己把 log 或 zap 输出转成 JSON 并走网络或文件落地。直接写 stdout 虽简单,但字段缺失、时间格式乱、没 trace_id 关联,ELK 后续查起来会卡在解析阶段。
- 用
zap+lumberjack写本地 JSON 文件,再让Filebeat监控目录——最稳,适合高吞吐(>5k QPS) - 避免用
log.Printf直连net.Conn发 TCP:Go 的http.DefaultClient或自建连接池没配超时,Logstash 重启时容易积压 goroutine - 务必在日志结构里塞
service_name、host、trace_id字段,否则 Kibana 里根本分不清是哪个实例哪次调用的日志 -
Filebeat的processors可以补字段,但别指望它从混乱的文本里抽trace_id——Go 层就得打干净
Logstash filter 怎么不丢字段也不卡住
常见问题是 Logstash 把 Go 日志当纯文本 parse,%{TIMESTAMP_ISO8601} 匹配失败后整条丢弃,或者用 json filter 时遇到非法 JSON(比如日志里混了换行或未转义引号)直接 crash。
- Go 写日志前必须用
json.Marshal序列化,别手拼字符串;尤其注意error类型字段要先转.Error(),否则序列化出空对象 - Logstash 的
jsonfilter 加skip_on_invalid_json => true,配合if [message] =~ /^{/做前置判断,防止非 JSON 行拖垮 pipeline - 别在
filter里做复杂计算(比如 base64 解码、正则提取 URL 参数),CPU 占满后日志堆积延迟飙升——这些该在 Go 层做完 -
grok能不用就不用,Go 已输出结构化 JSON 的情况下,jsonfilter 耗时不到 grok 的 1/5
Kibana 里为什么搜不到 trace_id 或 HTTP 状态码
表面是搜索问题,根子常在 Elasticsearch mapping 没对齐:Go 打的日志字段是 http_status,Logstash 却重命名为 status_code,而 Kibana 里的 index pattern 还在找 http_status,结果字段显示为空。
- Logstash 输出到 ES 前,用
mutate { rename => { "http_status" => "status_code" } }就得同步改 Kibana 的 index pattern,否则字段不出现 - Elasticsearch 默认对字符串字段建
text类型,trace_id这种精确值必须显式设为keyword,否则无法聚合或 term 查询 - Go 里打日志时用
zap.String("trace_id", span.SpanContext().TraceID().String()),确保值是纯字符串,不是 struct 或 []byte - 检查 Kibana 的
Stack Management > Index Patterns > [your-pattern] > Field details,确认关键字段类型是keyword而非text
Filebeat 和 Logstash 之间要不要加 Kafka
单机小流量(
立即学习“go语言免费学习笔记(深入)”;
- Filebeat 到 Kafka 用
output.kafka,记得开required_acks: 1和compression_level: 3,平衡可靠性和吞吐 - Kafka topic 建议按服务拆(如
go-auth-logs、go-order-logs),别全塞进一个 topic,方便 Logstash 按需消费 - Logstash 的
input.kafka要配group_id,否则重启后重复消费;同时关掉auto_offset_reset的earliest,避免历史垃圾数据刷屏 - 跳过 Kafka 直连虽省事,但线上出问题时你得手动清理 Filebeat registry 文件,比修 Kafka offset 麻烦得多
真正麻烦的是 trace_id 跨服务串联——Go 微服务之间靠 HTTP header 透传,但 Filebeat 不会自动把上游 header 注入日志。这得在每个服务的中间件里手动取、存、打点,漏一个环节,链路就断了。










