PHP解压ZIP中文乱码根源是ZipArchive不处理编码,直接将GBK编码的文件名当UTF-8解析;解决方法包括用iconv或mb_convert_encoding转码,或压缩端启用UTF-8文件名。

PHP解压ZIP时文件名乱码的根本原因
PHP原生ZipArchive类完全不处理文件名编码,它直接把ZIP包里存的字节原样当UTF-8解析——而Windows下大多数压缩软件(如WinRAR、7-Zip默认设置)实际存的是GBK/GB2312编码的文件名。结果就是ZipArchive::getNameIndex()返回一串无法显示的“”或问号。
用iconv转码解决中文文件名乱码
最轻量、无需额外扩展的方案:在获取文件名后立刻用iconv()从GBK转UTF-8。注意必须先判断是否为GBK编码(避免对已UTF-8的文件名重复转码),可用mb_detect_encoding()辅助,但更稳妥的是按ZIP来源约定处理:
- 若确定是Windows用户打的包(绝大多数情况),统一按
iconv('GBK', 'UTF-8//IGNORE', $filename)转 -
ZipArchive::getNameIndex($i)拿到的原始名要立即转,不能等到extractTo()之后再处理目录结构 - 如果解压路径含中文,也要确保
extractTo()的$destination参数本身是UTF-8编码(Linux/macOS通常没问题,Windows需确认PHP运行环境locale)
用ziparchive + mb_convert_encoding兼容多编码
比iconv()更容错的方式是用mb_convert_encoding()尝试多种编码回退:
$rawName = $zip->getNameIndex($i); $decodedName = mb_convert_encoding($rawName, 'UTF-8', ['GBK', 'GB2312', 'BIG5', 'UTF-8']); // 然后用 $decodedName 作为目标文件名或子目录名
注意mb_convert_encoding()不会报错,遇到无法转换的字节会静默丢弃,所以顺序要把最可能的编码放前面;另外必须开启mbstring扩展,否则函数不存在。
立即学习“PHP免费学习笔记(深入)”;
彻底规避乱码:压缩端就用UTF-8存文件名
真正治本的方法不是在PHP端补救,而是让ZIP包本身就存UTF-8文件名:
- WinRAR:勾选「ZIP UTF-8 文件名」选项(选项 → 设置 → 压缩 → ZIP格式 → UTF-8文件名)
- 7-Zip:命令行加
-mcu参数,或GUI中「添加到压缩包」→「参数」→勾选「使用UTF-8编码文件名」 - PHP自己生成ZIP时,用
ZipArchive::setArchiveComment()无用,但addFile()和addFromString()传入的$localname参数必须是UTF-8字符串,且需确认PHP源码文件本身保存为UTF-8无BOM
一旦压缩包文件名字段是UTF-8,ZipArchive就能正确读取,不用任何转码——但这个前提依赖上游压缩行为可控,生产环境往往不可控。











