PHP读取CSV中文乱码需先确认编码(Excel导出常用GBK),再用mb_convert_encoding转UTF-8;fgetcsv解析时设行结束符为"\n"、长度为0,校验表头字段映射与别名,批量插入用事务+ON DUPLICATE KEY并建唯一索引。

PHP读取CSV文件时中文乱码怎么处理
直接用 fgetcsv() 读取 UTF-8 编码的 CSV(尤其 Excel 导出的),中文字段常变问号或方块。根本原因是 Windows 下 Excel 默认用 GBK/GB2312 保存 CSV,而 PHP 脚本通常按 UTF-8 解析。
- 先用
mb_detect_encoding()检查原始内容编码,但不可靠;更稳妥的是统一转码:读取后对每行字段用mb_convert_encoding($str, 'UTF-8', 'GBK') - 若 CSV 来自 Excel,导出时选「CSV UTF-8(逗号分隔)」格式,避免手动转码
- 用
file_get_contents()+str_getcsv()替代fgetcsv()可绕过 BOM 识别问题,再手动处理换行和引号
用fgetcsv()解析班级通信录CSV要注意哪些字段边界
fgetcsv() 对含换行符、逗号、双引号的字段容易切错行或截断,比如学生地址栏写了「北京市朝阳区,建国路88号」就会被误拆成两列。
- 必须传入第四个参数
"\n"明确行结束符,否则在 Mac/Linux 下可能读不全 - 第二参数设为
0(不限长度),避免长字段被截断 - 首行是表头时,用
fgetcsv($handle)先读一次跳过,再进循环 - 字段值含双引号必须成对出现且被包裹,如
"张三",""北京市朝阳区,建国路88号""—— 注意内部双引号要写两个
导入前如何校验CSV结构是否匹配班级通信录字段
不能假设用户上传的 CSV 一定有「姓名、学号、电话、班级」四列,顺序也可能错。硬编码索引(如 $row[0] 是姓名)会崩。
- 先读第一行,用
array_map('trim', $header)清理空格,再建立映射:$map = array_flip($header) - 检查关键字段是否存在:
isset($map['姓名']) && isset($map['学号']),缺失则中止并提示 - 允许别名:把
['姓名','名字','学生姓名']都映射到name字段,提升容错 - 学号建议用正则校验是否全数字或带字母前缀(如
/^[A-Za-z]{0,2}\d{6,10}$/),电话用preg_match('/^1[3-9]\d{9}$/', $phone)
批量插入数据库时如何避免超时和重复数据
一次导入 500 名学生,逐条 INSERT 不仅慢,还可能触发 PHP 的 max_execution_time 限制,且没做去重的话会把同个学号插多遍。
立即学习“PHP免费学习笔记(深入)”;
- 用事务包住整个导入:
$pdo->beginTransaction()→ 批量INSERT ... ON DUPLICATE KEY UPDATE→$pdo->commit() - 学号字段必须建唯一索引(
UNIQUE KEY `uk_student_id` (`student_id`)),否则ON DUPLICATE KEY不生效 - 单次
INSERT最多塞 500 行,太多会超 MySQL 的max_allowed_packet - 每处理 100 行调用一次
gc_collect_cycles(),防内存溢出
fgetcsv() 会返回 false 或空数组,不判空直接取字段就报 Undefined offset。加一句 if (empty($row)) continue; 能省掉大半调试时间。











