根本原因是字符串编码与空格字节不匹配,需先用unpack()确认空格类型及真实编码,再用mb_split()或preg_split('/\s+/u')等多字节安全函数处理。

PHP 按空格分割中文文本时出现乱码,根本原因不是 explode() 本身出错,而是字符串编码与空格字节不匹配——中文环境下的“空格”可能是全角空格( ,U+3000)、不间断空格( ),或源文本实际是 GBK/GB2312 编码却当 UTF-8 处理。
确认空格类型和字符串真实编码
别急着改代码,先用 bindec() 或 unpack() 看清空格到底是什么字节:
var_dump(unpack('H*', '你 好')); // 全角空格会显示为 'e38080'
var_dump(unpack('H*', '你 好')); // 半角空格是 '20'
同时检查来源:mb_detect_encoding($str) 只作参考,更可靠的是明确知道输入来源(如 POST 表单、文件读取、数据库字段)的编码。MySQL 查询需确认连接编码(SET NAMES utf8mb4),文件读取需用 file_get_contents() 后配合 mb_convert_encoding() 统一转成 UTF-8。
用 mb_split() 替代 explode() 处理多字节空格
explode() 是字节级切分,对 UTF-8 中文里的全角空格(2–3 字节)完全失效;mb_split() 支持正则且按字符而非字节切分:
立即学习“PHP免费学习笔记(深入)”;
- 处理半角+全角空格混合:
mb_split('[\s\u{3000}]+', $str)(需 PHP 7.4+,\u{3000}是 Unicode 全角空格) - 兼容旧版 PHP:
mb_split('/[\x{20}\x{3000}]+/u', $str) - 若只需简单切分且已确保字符串是 UTF-8,也可先用
str_replace()归一化:$str = str_replace(' ', ' ', $str); $parts = explode(' ', $str);
注意 trim() 和 preg_split() 的编码陷阱
trim() 默认只处理 ASCII 空白符(" \t\n\r\0\x0B"),对全角空格、中文顿号、甚至某些 Unicode 分隔符(如 U+2000–U+200F)完全无效:
- 用
mb_trim()自定义函数,或直接mb_ereg_replace('^[\s\u{3000}]+|[\s\u{3000}]+$', '', $str) -
preg_split()必须加u修饰符,否则 UTF-8 字符会被拆成乱码字节:preg_split('/\s+/u', $str) - 避免用
preg_split('/ /', $str)—— 它只认半角空格,漏掉全角,且没u修饰符时在含中文字符串里可能崩溃
真正麻烦的不是切分动作本身,而是上游数据编码不可控:浏览器表单提交、Excel 导入、微信 API 返回的文本,都可能混用多种空格和编码。与其在每处 explode() 后补救,不如在入口统一做 mb_convert_encoding($input, 'UTF-8', 'auto') + mb_ereg_replace() 清洗空白符。否则,同一个“空格”,在不同环节可能变成三种字节序列,调试时根本对不上。











