php截取中文字符串应优先用mb_substr($str, $start, $length, 'utf-8'),避免substr()按字节截取导致乱码;需显式指定编码,$start和$length均按字符数(unicode码点)计算;分隔符截取推荐strstr()或basename()等语义化函数。

substr() 是 PHP 字符串截取最常用函数,但中文下容易乱码
直接用 substr() 截取含中文的字符串,大概率出错——比如截出半个汉字、显示问号或空格。这是因为 substr() 按字节操作,而 UTF-8 中一个中文占 3 字节,切在中间就坏了。
实操建议:
- 纯英文/ASCII 场景可放心用
substr($str, $start, $length) - 含中文时,优先改用
mb_substr($str, $start, $length, 'UTF-8'),显式指定编码 - 如果不确定源字符串编码,先用
mb_detect_encoding($str)探测,别硬写'UTF-8' - 注意
mb_substr()第四个参数是编码,不是可选;漏掉会按系统默认编码处理,Linux 下常是 ISO-8859-1,一截就崩
mb_substr() 的 $start 和 $length 参数怎么算位置
很多人以为 $start = 2 就是“从第 3 个字符开始”,其实它数的是 Unicode 码点位置(对中文就是“第 3 个字”),不是字节偏移——这点和 substr() 的行为逻辑一致,但底层计算方式不同。
常见错误现象:
立即学习“PHP免费学习笔记(深入)”;
-
mb_substr('你好世界', 2, 2)→ 得到'世界'(正确) -
mb_substr('你好世界', 0, 4)→ 得到'你好世'($length=4表示取 4 个字符,不是 4 字节) - 误把
$length当成字节数传入,结果截得比预期短(尤其混排中英文时)
截取到某个字符前/后该用什么函数
不是所有截取都靠起始+长度,更多时候是“取冒号前面的内容”或“取最后一个斜杠之后的文件名”。这时候硬算位置很蠢,应该用语义化函数。
实操建议:
- 按分隔符取前半部分:用
strstr($str, ':', true)(PHP 5.3+,第三个参数设为true返回匹配前内容) - 取后半部分:直接
strstr($str, ':')(返回包含冒号及之后全部) - 取最后一个路径段:
basename($str),比mb_substr($str, strrpos($str, '/') + 1)安全得多 - 避免用
explode()+array_shift()截取,性能差且对空分隔符无保护
性能敏感场景下 substr() 和 mb_substr() 能不能混用
能,但必须清楚代价:mb_substr() 比 substr() 慢 3–5 倍(实测千次调用差异明显),因为要解析多字节序列。如果你确定输入 100% 是 ASCII(比如用户 ID、token、数字 ID),就别套 mb_*。
判断依据很简单:
- 字段来源是数据库某
VARCHAR字段,且建表时指定了utf8mb4?→ 用mb_substr() - 字段值来自
$_GET['id'],且后端已校验为纯数字?→ 用substr()完全安全 - 不确定来源,又不想承担乱码风险?宁可加一层
mb_check_encoding($str, 'UTF-8')再分支处理
最常被忽略的一点:很多框架自动转义或过滤输入,你以为是原始字符串,其实已被 htmlentities() 处理过——这时再用 mb_substr() 可能截到 & 或 的编码片段,得先还原。











