Go语言中string是UTF-8字节序列,需用[]rune处理字符操作;len()返回字节数,for range或[]rune可正确遍历Unicode字符;截取前N字符应使用string([]rune(s)[:N])。

Go 语言原生支持 UTF-8,字符串字面量默认就是 UTF-8 编码的字节序列,但“按字符操作”不能直接用 len() 或下标遍历,因为一个 Unicode 字符可能占多个字节。关键在于区分 字节(byte) 和 符文(rune)。
理解 string、[]byte 和 []rune 的区别
Go 中 string 是只读的 UTF-8 字节序列;[]byte 是可变的字节切片;[]rune 是 Unicode 码点(即逻辑字符)的切片。
-
len("你好")返回 6(UTF-8 占 3 字节/字符 × 2) -
len([]rune("你好"))返回 2(两个 Unicode 字符) - 直接
s[0]拿到的是第一个字节(如228),不是“你”这个字符
安全遍历 UTF-8 字符串
用 for range 遍历 string,自动按 rune 解码,返回索引(字节偏移)和 rune 值:
for i, r := range "Hello世界" {
fmt.Printf("位置 %d: %U (%c)\n", i, r, r)
}
// 输出:位置 0: U+0048 (H) … 位置 5: U+4F60 (你) … 位置 8: U+754C (界)
若需反向遍历或随机访问第 n 个字符,先转成 []rune:
立即学习“go语言免费学习笔记(深入)”;
runes := []rune(s)-
runes[2]取第三个字符(rune 类型) - 再转回 string:
string(runes[2])
常用 UTF-8 相关操作
处理中文、emoji、带重音符号的字母等场景时注意:
-
截取前 N 个字符:用
string([]rune(s)[:N]),别用s[:N] -
判断是否包含中文/emoji:用
unicode.Is(unicode.Han, r)或unicode.Is(unicode.Symbols, r) -
大小写转换:用
strings.ToTitle/strings.ToUpper(它们内部已按 rune 处理) -
正则匹配中文:用
[\u4e00-\u9fff]或\p{Han}(需启用 Unicode 标志:regexp.Compile(`\p{Han}+`))
避免常见坑
以下写法在含中文或 emoji 时会出错:
-
s[0:2]—— 可能截断一个汉字(如“你好”前 2 字节是乱码) -
s[len(s)-1]—— 最后一个字节不等于最后一个字符 -
strings.Split(s, "")—— 按字节切,不是按字符,结果错误 - 用
len()判断“字符串长度”却不说明是字节数还是字符数
基本上就这些。记住:Go 的 string 是 UTF-8 字节流,要当“文本”用,就转 rune;要当“数据”用(如网络传输、文件存储),就按 byte 处理。










