最稳方案是:先筛后缀,再读文件头校验magic bytes,用finfo检查MIME类型,保存为随机名且路径禁脚本执行,PhpSpreadsheet设setReadDataOnly(true)和限定工作表,流式读取,PDO预处理+事务写库。

只允许上传 .xlsx 和 .xls 文件,PHP 怎么做最稳?
靠前端 `` 或 JS 检查后缀纯属摆设,必须在 PHP 层硬校验。关键不是看文件名后缀,而是读取文件头(magic bytes)+ 解析实际内容结构。
- 先用
pathinfo($filename, PATHINFO_EXTENSION)快速筛掉明显不对的后缀(如.php、.exe),但不能仅依赖它 - 再用
fopen()读取前 16 字节,比对 Excel 文件特征:\xD0\xCF\x11\xE0(.xls)或PK\x03\x04(.xlsx 的 ZIP 头) - 最后尝试用
PhpSpreadsheet加载——如果抛出PhpOffice\PhpSpreadsheet\Reader\Exception,说明不是合法 Excel,直接拒收
$_FILES['file']['name'] 后缀可被伪造,怎么防?
攻击者改个 student.php.xls 就能绕过简单 str_ends_with() 判断。真实风险在于:你用 move_uploaded_file() 存到临时目录后,仍可能被当成 PHP 执行(尤其当 web server 配置宽松时)。
- 不要用原始文件名保存,生成随机名(如
uniqid('import_').'.xlsx') - 保存路径必须在 web root 外,或至少禁用该目录下所有脚本执行(Nginx 加
location ~ \.(php|sh|pl)$ { deny all; }) - 上传后立即用
finfo_open(FILEINFO_MIME_TYPE)检查 MIME 类型,application/vnd.ms-excel和application/vnd.openxmlformats-officedocument.spreadsheetml.sheet才放行
用 PhpSpreadsheet 导入前,为什么一定要调 setReadDataOnly(true)?
不加这个,Excel 里带公式的单元格会触发计算引擎,可能执行恶意宏逻辑(虽现代版本默认禁用,但兼容性风险仍在),更严重的是:大文件加载全量对象会吃光内存。
-
$reader->setReadDataOnly(true)确保只读数值/文本,跳过样式、公式、图表等无关字段 - 配合
$reader->setLoadSheetsOnly(['Sheet1'])限定工作表,避免多页签遍历开销 - 导入循环中别用
getActiveSheet()->getCell('A'.$i)->getValue()反复查表,改用getRowIterator()+getCellIterator()流式读取,内存占用直降 70%+
校验通过后,怎么安全地把数据写进数据库?
学生姓名、电话、家长邮箱这些字段看着普通,但批量插入时容易因空值、超长、SQL 注入或唯一索引冲突崩掉整个导入流程。
立即学习“PHP免费学习笔记(深入)”;
- 逐行用
filter_var($phone, FILTER_SANITIZE_NUMBER_INT)清洗手机号,用filter_var($email, FILTER_VALIDATE_EMAIL)校验邮箱格式 - 用 PDO 预处理语句插入,别拼 SQL 字符串;对班级 ID 这类外键字段,先查一次
SELECT id FROM classes WHERE code = ?,查不到就跳过这行并记录错误 - 开启事务:
$pdo->beginTransaction(),全部成功才commit(),任一失败立刻rollback(),避免部分写入脏数据
真正难的不是读 Excel,是把“用户以为只是点一下”的操作,变成服务器上一连串不可跳过、不可妥协的防御链。漏掉任意一环,通信录就可能变成攻击入口。











