中文场景下必须用 mb_strlen(),因 strlen() 按字节计数导致 UTF-8 中文长度误判,需显式指定 'UTF-8' 编码并配合 trim、normalize 和阈值校验确保准确性和安全性。

strlen() 和 mb_strlen() 选哪个?中文场景下必须用 mb_strlen()
PHP 默认的 strlen() 按字节计数,遇到 UTF-8 编码的中文会返回 3(每个汉字占 3 字节),导致「长度为 5」的中文字符串被误判为 15。实际业务中要按“字符数”判断(比如用户名最多 10 个汉字),必须用 mb_strlen(),并显式指定编码:mb_strlen($str, 'UTF-8')。
常见错误现象:strlen("你好") === 6,但你需要它等于 2。
- 没传第二个参数时,
mb_strlen()依赖mb_internal_encoding()当前值,线上环境可能不一致,务必显式传'UTF-8' - 若字符串含 BOM 或混合编码(如 GBK + UTF-8),先用
mb_convert_encoding($str, 'UTF-8', 'auto')统一再测 - 性能上
mb_strlen()略慢于strlen()
动态阈值怎么存?别硬编码在 if 里
所谓“动态”,通常指阈值来自配置、数据库或用户权限。直接写 使用场景:后台可配置字段最大长度、VIP 用户允许更长昵称、API 接口根据版本调整限制。 立即学习“PHP免费学习笔记(深入)”; 用户输入常带首尾空格、全角空格(\u3000)、零宽空格(\u200b)甚至 emoji(如 ?? 占 2 个 Unicode 码点,但显示为 1 个图形)。直接测长度会失真。 正确做法是先清洗再判断: 当字符串可能极大(如上传的 Base64 图片描述、日志片段),用 例如限制最多 100 字符,UTF-8 下单字符最多 4 字节 → 字节长度超过 400 就必超限: 这个技巧在 CLI 脚本或高频 API 中有效,但要注意:纯 ASCII 字符串下 真正容易被忽略的是:动态阈值如果来自外部且未做范围校验(比如允许设成 9999999),配合大字符串会直接触发内存耗尽——阈值本身也得有上下界保护。if (mb_strlen($name) > 10) 是静态判断;换成变量后,关键在**来源可信性**和**类型安全**。
$limit = (int)$_POST['max_len'];,否则恶意传字符串如 '10 or 1=1' 可能绕过判断TINYINT UNSIGNED,避免负数或超大值(如 2147483647)导致内存溢出$config['user']['nickname_max'] = 12;,而不是散落在各处的魔法数字空格、换行、emoji 怎么算?提前 trim 和 normalize
trim($str) 去首尾空白,但注意它不处理全角空格——需加 preg_replace('/^[\s\u3000]+|[\s\u3000]+$/u', '', $str)
mb_strlen($str, 'UTF-8') 对大多数 emoji 返回正确字符数(如 "?" 为 1),但某些组合型(如 "??")仍可能返回 2;若需严格按视觉计数,改用 grapheme_strlen($str)
mb_ereg_replace('[[:space:]]', '', $str) 去所有空白后再测有效内容长度性能敏感场景:长度超限就提前退出,别等全量计算
mb_strlen() 会遍历全部字符,浪费资源。可先用 strlen() 快速估算字节数,再决定是否进多字节处理。if (strlen($str) > 400) {
throw new InvalidArgumentException('String too long');
}
if (mb_strlen($str, 'UTF-8') > 100) {
throw new InvalidArgumentException('String too long');
}
strlen() 和 mb_strlen() 结果一致,可跳过多字节分支;混合内容时,两次计算仍是性价比最高的保底方案。










