php文件bom导致headers已发送等错误;phpexcel需匹配读取器、设utf-8编码与内存缓存;html用tidy修复而非正则;文件上传须校验扩展名与真实mime。

PHP文件本身编码错误:BOM和UTF-8无BOM混淆最常见
绝大多数“PHP文件格式错误”其实不是语法或结构问题,而是文件保存时带了UTF-8 with BOM——那三个看不见的字节EF BB BF会被PHP当普通输出,导致Headers already sent、JSON响应开头多出乱码、AJAX失败等连锁问题。
- 用
hexdump -C your_script.php | head检查开头是否为ef bb bf;是,就确认BOM存在 - VS Code右下角点编码名 → 选
Reopen with Encoding→ 试UTF-8和UTF-8 with BOM,看中文是否正常显示 - 修复后务必选
Save with Encoding → UTF-8(注意不是“with BOM”) - 批量清除BOM:
sed -i '1s/^\xEF\xBB\xBF//' *.php
Excel文件读取报“corrupt”或中文乱码:PHPExcel编码与缓存配置关键
PHPExcel对文件格式极其敏感,尤其遇到中文列名、合并单元格或轻微损坏时,常报Excel file is corrupt,但实际可能是编码或内存配置不当。
- 先换读取器:
PHPExcel_Reader_Excel2007(.xlsx)和PHPExcel_Reader_Excel5(.xls)不能混用,确认后缀再选 - 中文乱码优先加:
$reader->setReadDataOnly(true)+mb_internal_encoding('UTF-8'),避免XML解析阶段解码错位 - 大文件必设缓存:
PHPExcel_Settings::setCacheStorageMethod(PHPExcel_CachedObjectStorageFactory::cache_in_memory_gzip) - 内存仍爆?在脚本开头加:
ini_set('memory_limit', '512M'),别依赖php.ini全局设置
HTML内容格式错误导致页面崩溃:Tidy扩展修复比正则更可靠
用户提交或爬虫抓取的HTML经常缺闭合标签、嵌套错乱、字符实体不全,直接echo会破坏整个页面结构。用正则修补极易翻车,tidy是PHP原生支持的稳妥方案。
- 先确认扩展已启用:
extension_loaded('tidy'),没开就需在php.ini中取消;extension=tidy注释 - 基础修复示例:
$tidy = new tidy(); $clean = $tidy->repairString($dirty_html, [ 'output-xhtml' => true, 'char-encoding' => 'utf8', 'wrap' => 0 ], 'utf8'); - 注意:
repairString()不修改原字符串,返回新内容;若含等实体,确保numeric-entities设为true
上传文件格式校验失效:$_FILES['type']不可信,必须双重验证
$_FILES['type']由浏览器提供,可被轻易伪造,仅靠它判断文件类型等于裸奔。真正有效的校验必须结合文件头(magic bytes)和扩展名白名单。
立即学习“PHP免费学习笔记(深入)”;
- 扩展名校验只是第一关:
pathinfo($_FILES['file']['name'], PATHINFO_EXTENSION)→ 对照$allowed = ['jpg', 'png', 'pdf'] - 关键一步:用
finfo_open(FILEINFO_MIME_TYPE)读真实MIME:$finfo = finfo_open(); $mime = finfo_file($finfo, $_FILES['file']['tmp_name']); - 例如PDF必须是
application/pdf,而非text/plain;图片类建议额外用getimagesize()验证是否真为图像 - 校验失败时,用
move_uploaded_file()前就unlink($_FILES['file']['tmp_name'])释放临时文件,防磁盘占满
file -i和finfo确认真实格式,比猜编码或改配置高效得多。











