用行政区划库前缀匹配拆分地址,清洗时先标准化换行/空格/括号再截断,MySQL字段建议province/city/district各VARCHAR(32)、street VARCHAR(128),导入时逐行校验防批量失败。

地址字段里混着省市区街道,怎么用 PHP 拆开?
直接用正则硬切风险很高——比如“北京市朝阳区建国路8号”和“广东省广州市天河区体育西路1号”结构看似一致,但“朝阳区”是市辖区,“天河区”也是市辖区,而“朝阳”本身又是北京下辖的独立县(实际不存在,仅作类比),单纯靠“省/市/区”关键词匹配会误判。更稳妥的方式是依赖已知行政区划库做前缀最长匹配。
推荐用 php-ext-china-division 扩展或轻量级数组库(如 china-regions 的 PHP 版本),按从长到短顺序尝试匹配地址开头:
- 先查“北京市朝阳区建国路8号”是否以“北京市朝阳区”开头 → 是,截掉,剩“建国路8号”
- 再查剩余部分是否以“朝阳区”开头(避免漏掉不带“市”的写法)→ 否
- 继续匹配“北京市” → 已被上一步覆盖,跳过
注意:必须按“省 > 市 > 区/县”层级降序排列匹配词,否则“河北”会先于“河北省”被匹配,导致“河北省石家庄市”拆成“河北/省石家庄市”。
Excel 导入时地址列含换行、空格、括号,怎么清洗?
班级通信录常由老师手工填写,地址栏常见 \n、全角空格、中文括号()、破折号——等干扰字符,直接进正则会崩。清洗要分两步走:标准化 + 截断。
立即学习“PHP免费学习笔记(深入)”;
示例处理链:
$addr = str_replace(["\r\n", "\n", "\r"], " ", $addr); // 换行转空格
$addr = preg_replace('/[\x{3000}\s]+/u', ' ', $addr); // 合并全角/半角空白
$addr = trim($addr, " ()【】()[]"); // 去首尾括号
$addr = preg_replace('/[—–−]/u', '-', $addr); // 统一破折号为短横
特别注意:trim() 对 Unicode 括号必须加 /u 修饰符,否则中文括号无效;全角空格 \x{3000} 和 ASCII 空格要分开处理,不能只用 str_replace(' ', '', $addr),否则会把地址里的正常空格也删掉。
拆完存进 MySQL,字段长度设多少才不截断?
别按“XX省XX市XX区”这种理想格式定长度。实际有“内蒙古自治区阿拉善盟额济纳旗”(15字)、“新疆维吾尔自治区巴音郭楞蒙古自治州和静县”(21字),街道还可能带“中关村软件园二期(西区)3号楼B座”这种长尾。
建议字段定义:
-
province:VARCHAR(32)(覆盖所有省级名称+“自治区”“直辖市”后缀) -
city:VARCHAR(32)(地级市名普遍在 2–8 字,但“湖北省直辖县级行政单位仙桃市”这种需兼容) -
district:VARCHAR(32)(同理,“厦门市思明区” vs “甘肃省临夏回族自治州临夏市”) -
street:VARCHAR(128)(街道+门牌+附注信息,宁宽勿窄)
如果用 utf8mb4 字符集,VARCHAR(32) 实际能存 32 个汉字,不是字节数,这点容易搞错。
批量导入时地址拆分失败,怎么定位哪一行出问题?
不要等全部导入完再报错。在循环读取 Excel 行时,对每一行的地址做预校验:
if (empty($raw_addr) || mb_strlen($raw_addr, 'UTF-8') < 5) {
throw new InvalidArgumentException("第{$rowIndex}行地址为空或过短:'{$raw_addr}'");
}
if (!preg_match('/[\p{Han}\p{Nd}a-zA-Z0-9\-_\s]/u', $raw_addr)) {
throw new InvalidArgumentException("第{$rowIndex}行地址含非法字符:'{$raw_addr}'");
}
关键点:错误信息里必须包含原始值 {$raw_addr} 和行号 {$rowIndex},否则老师根本没法反查原始表格。另外,mb_strlen() 必须显式指定 'UTF-8',否则在某些服务器配置下会按 latin1 计数,汉字全算成 1 字节,判断失准。
拆分逻辑本身最好包在 try/catch 里,捕获具体哪一级匹配失败,而不是让整个导入进程卡死。











