phpspreadsheet 是读取 xlsx 的唯一稳定选择,兼容 php 7.2–8.3,支持分块读、合并单元格处理、日期转换及严格校验,需配合事务与批量插入确保数据安全。

用 PhpSpreadsheet 读 XLSX 最稳,别碰 PHPExcel 和 xlswriter
老项目还在用 PHPExcel?它已停止维护,PHP 7.4+ 会报 Deprecated 警告甚至 fatal error;xlswriter 只能写不能读,压根不适用导入场景。目前唯一靠谱的选择是 PhpSpreadsheet(phpoffice/phpspreadsheet),它兼容 PHP 7.2–8.3,支持 XLSX、ODS、CSV,且内存控制比旧版好得多。
安装命令:composer require phpoffice/phpspreadsheet
- 务必关掉
ini_set('memory_limit', '-1')—— 它会让大文件导入时吃光服务器内存,正确做法是分块读(见下一条) - 如果 Excel 有合并单元格,
$cell->getValue()可能返回空,得用$cell->getCalculatedValue()或提前调用$worksheet->calculateWorksheetData() - 日期列默认读出来是数字(Excel 序列值),需用
PhpOffice\PhpSpreadsheet\Shared\Date::excelToDateTimeObject($value)转成DateTime
大文件(>5MB 或 >10 万行)必须用 ChunkReadFilter 分块读
直接 IOFactory::load() 整表加载,10 万行 XLSX 很容易触发内存超限或超时。真实业务中,用户上传的“模板 Excel”常含隐藏列、样式、空行,全量解析纯属浪费。
- 启用过滤器后,只加载指定行范围,例如每次读 1000 行:
$reader->setReadFilter(new ChunkReadFilter(0, 1000)) -
ChunkReadFilter需配合$reader->setLoadAllSheets(false)和$reader->setLoadSheetsOnly(['Sheet1']),否则仍会预加载所有 sheet 元数据 - 注意:分块读时,
$worksheet->getHighestRow()返回的是整个 sheet 的最大行号,不是当前块的结束行,要用fromRow/toRow手动控制 - 别在循环里反复 new
Spreadsheet或Workbook实例——对象残留会累积内存,应在每块处理完后 unset$spreadsheet
空行、空列、标题错位是入库失败主因,必须做前置校验
用户上传的 Excel 几乎从不按你写的模板来:标题行可能在第 3 行、A 列突然多出一列备注、最后一行塞了个“合计”。直接映射字段必然崩库或插错数据。
立即学习“PHP免费学习笔记(深入)”;
- 先扫一遍前 5 行,用
$worksheet->rangeBoundaries('A1:Z5')拿到实际非空区域,再定位标题行(比如找含 “手机号” 或 “user_id” 的单元格) - 用
$worksheet->getCellByColumnAndRow($colIndex, $headerRow)->getValue()提取标题,trim(strtolower())后匹配白名单字段,避免大小写/空格/全角冒号导致映射失败 - 遇到空单元格,别直接跳过——要判断是“该列允许为空”,还是“整行数据异常”,建议加开关:
$strict_mode = true控制是否中断导入 - 入库前用
filter_var($value, FILTER_SANITIZE_STRING)清理 HTML 标签,防止富文本粘贴进来的<span></span>污染数据库
PDO::beginTransaction() 必须包住整个导入流程,单条失败不能丢数据
一个 5000 行 Excel,插到第 4999 行时外键约束失败,前面 4998 条已入库?这是线上事故高发点。事务不是可选项,是保命线。
- 开始前
$pdo->beginTransaction(),全部成功再commit(),任一失败立即rollback() - 不要在循环里每条都
execute()—— 用INSERT INTO ... VALUES (...), (...), (...)批量插入,100 行一批,性能差 10 倍以上 - 捕获
PDOException时,$e->getCode()是 SQLSTATE(如23000表示完整性约束失败),$e->getMessage()含具体字段名,可提取后反馈给前端:“第 127 行,邮箱格式错误” - 事务内避免调用外部 API 或写文件——超时或失败会导致事务卡死,MySQL 默认
wait_timeout=28800,长导入务必拆更小批次
最麻烦的永远不是读 Excel,而是用户改了模板却不告诉你,或者把身份证号当文本粘贴导致末尾多了空格。校验逻辑得跑在事务外面,失败了连事务都不用启。











