Go字符串原生支持Unicode,问题出在外部系统交互:MySQL需utf8mb4、JSON默认转义Emoji、len()返回字节数非字符数、HTTP响应头须声明charset=utf-8。

Go 字符串默认支持 Unicode,但数据库存取常出问题
Go 的 string 类型原生按 UTF-8 编码,Emoji(如 ?、??)本质就是合法的 Unicode 码点,Go 本身完全能识别、拼接、遍历——问题几乎全出在「进出外部系统」时的编码/长度/截断环节。
常见错误现象:INSERT 报错 Incorrect string value: '😊' for column;或读出来变成 ;或用 len() 判断字段长度导致 MySQL varchar(255) 实际只存了不到 60 个 Emoji。
- MySQL 必须用
utf8mb4字符集(不是utf8),且连接参数要显式加?charset=utf8mb4 - PostgreSQL 默认支持,但若用
pgx连接,确保pgx.ParseConfig()没手动覆盖RuntimeParams中的编码设置 - SQLite3 需确认编译时启用了
UTF8支持(现代发行版基本都开),但TEXT字段仍建议显式声明COLLATE UNICODE
JSON 序列化时 Emoji 被转义成 uXXXX
Go 的 json.Marshal() 默认把非 ASCII 字符(包括 Emoji)转成 uXXXX 形式,前端收到的是转义串而非原始字符,显示为文字而非图形。
这不是 bug,是 JSON 规范允许的行为;但多数 Web 场景需要可读原始字符串。
立即学习“go语言免费学习笔记(深入)”;
- 用
json.Encoder替代json.Marshal(),调用SetEscapeHTML(false)(注意:这仅影响 HTML 特殊字符,对 Emoji 无效) - 真正生效的是:在
json.Encoder实例上调用SetIndent("", "")后,再调用Encode()—— 但更直接的是改用json.RawMessage或自定义MarshalJSON()方法 - 最简方案:用
bytes.ReplaceAll()手动还原,例如bytes.ReplaceAll(b, []byte("\u"), []byte(""))(不推荐,易误伤) - 正确做法:用第三方库如
github.com/tidwall/gjson或直接接受标准行为 —— 浏览器 JSON.parse() 会自动解码uXXXX,显示正常
用 len() 或切片操作处理 Emoji 字符串会出错
len("?") 返回 4,不是 1;"hello ?"[5] 取到的是 Emoji 的第二个字节,不是整个表情。这是 UTF-8 多字节特性的必然结果,不是 Go 的缺陷。
所有依赖字节长度的操作(比如分页截断、日志打点、SQL 参数绑定)都可能因此错位。
- 统计字符数(rune 数)用
utf8.RuneCountInString(s),不是len(s) - 安全截断前 N 个字符:用
for i, r := range s { if i >= N { break }; ... }或strings.RuneSlice(Go 1.21+) - 正则匹配 Emoji:别用
.,改用p{Emoji}(需启用regexp.MustCompile(`p{Emoji}+`),注意p{Emoji}是 Unicode 类别,不是所有视觉表情都涵盖) - ORM 如
gorm插入前若做了string[:20]截断,实际可能切在 Emoji 中间,入库后变乱码
HTTP 响应头未声明 charset 导致浏览器解析错乱
即使 Go 后端返回了正确的 UTF-8 字节(含 Emoji),如果响应头没带 Content-Type: application/json; charset=utf-8 或 text/html; charset=utf-8,某些旧浏览器或调试工具会按 ISO-8859-1 解析,显示满屏 。
- 用
http.ResponseWriter.Header().Set("Content-Type", "application/json; charset=utf-8")显式声明 - 使用
encoding/json时,json.NewEncoder(w).Encode(v)不会自动设 header,必须提前写 - gin / echo 等框架默认设了,但若中间件里写了
w.Header().Set("Content-Type", "application/json")却漏掉; charset=utf-8,就踩坑 - Chrome 开发者工具的 Network → Response Headers 里务必确认
content-type包含charset=utf-8
Emoji 存储本身不难,难的是每个环节都得保持 UTF-8 上下文一致:从 Go 字符串 → 数据库连接 → 表结构 → HTTP 头 → 前端渲染。漏掉任意一环,就会在某个环节看到 或报错,而且错误位置和根源常常不对应。










