substr_count 统计子串而非单字符,只进行字节级精确匹配,不支持正则、大小写忽略或重叠匹配;需注意编码一致性、参数类型及性能优化。

substr_count 统计的是子串,不是字符
很多人用 substr_count 想统计某个字符(比如空格、逗号)出现几次,结果对不上——因为 substr_count 是按「子串」匹配的,它不拆解字符串,也不支持正则,更不会把 "a" 当作单字符去逐个扫描。它只找完全一致的连续片段。
- 想统计单个字符?没问题,
substr_count($str, " ")可以,但前提是你要确认那个“空格”确实是 ASCII 空格("\x20"),而不是全角空格、"\t"或"\n" - 想统计中文标点(如“,”)?可以,但注意 UTF-8 下它是 3 字节,
substr_count本身是字节安全的,只要编码统一就 OK - 误传正则表达式(比如
"/\d+/")会直接返回 0,因为它当字面量去匹配,根本不会解析正则
大小写敏感且不支持选项参数
substr_count 没有 flag 参数,不接受 PREG_OFFSET_CAPTURE 这类东西,也没有 IGNORE_CASE 开关。它就是硬匹配,大小写一个字母都不能差。
- 要忽略大小写?得先用
mb_strtolower()或strtolower()统一转换(注意多字节安全:如果字符串含中文,优先用mb_strtolower($str, "UTF-8")) - 别试图在第三个参数
$offset或第四个$length里塞布尔值或数组,它们只接受整数,传错类型 PHP 会静默转成 0 或 1,结果难排查 - 起始偏移量
$offset超出字符串长度时,返回 0;$length为负数会被截断为 0,不是从末尾倒数
性能高,但别在循环里反复调用
substr_count 是 C 实现的,比 preg_match_all 快得多,也比手写 for 循环遍历快。但它再快,也扛不住你在十万次循环里对同一长字符串反复调用。
- 常见反模式:
foreach ($words as $w) { $cnt = substr_count($text, $w); ... }—— 应该预处理:先把所有关键词合并进一个正则(如果逻辑允许),或用 Aho-Corasick 算法(PHP 扩展如ext-aho-corasick) - 如果只是查固定几个词(比如 3–5 个),不如提前
str_replace计数,或者用array_count_values(array_filter(explode(...)))(仅限分隔明确场景) - 注意内存:
substr_count不复制字符串,但如果你传入的是大文件file_get_contents()结果,它仍会在内存中完整加载并扫描
替代方案选型:什么时候不该用 substr_count
当你需要「位置信息」「重叠匹配」「模糊匹配」或「跨编码边界操作」时,substr_count 就到头了。
立即学习“PHP免费学习笔记(深入)”;
- 要找重叠子串(如
"aaaa"中"aa"出现几次?答案应是 3,但substr_count返回 2)→ 改用preg_match_all('/(?=aa)/', $str) - 要返回每个匹配的起始位置 → 用
mb_strpos循环,或preg_match_all('/pattern/', $str, $matches, PREG_OFFSET_CAPTURE) - 字符串是 GBK 编码且含中文,又用了
mb_*函数做预处理 → 确保mb_internal_encoding("GBK")已设,否则mb_strtolower可能截断乱码,导致substr_count匹配失败
最常被忽略的一点:substr_count 对 null、false、数字等非字符串类型会静默转成字符串再匹配。比如 substr_count(123, "2") 返回 1,但 substr_count([], "2") 返回 0(因为 (string)[] === "")。传参前最好加 is_string() 判断,尤其数据来自 JSON 解析或 DB 查询时。











