PHP 的 strlen() 与 JavaScript 的 String.length 不等价,因前者返回字节数、后者返回 UTF-16 码元数;需用 mb_convert_encoding($s, 'UTF-16LE', 'UTF-8') 后取 strlen()/2 才能准确模拟 JS 行为。

PHP 的 strlen() 和前端 String.length 不等价
直接用 strlen() 判断中文、emoji 或带 BOM 的字符串长度,大概率和前端显示不一致。因为 strlen() 返回的是字节数,而 JavaScript 的 String.length 返回的是 UTF-16 码元个数(不是字符数,也不是字节数)。比如一个 emoji(如 "?")在 JS 中 "?".length === 2,在 PHP 中 strlen("?") === 4(UTF-8 编码下占 4 字节)。
要对齐,PHP 必须按 UTF-16 码元维度计数,而非字节或 Unicode 字符。
- 前端输入的字符串经网络传输后仍是 UTF-8 编码,但 JS 引擎内部以 UTF-16 表示,
.length统计的是这个 UTF-16 表示中的 16 位单元数量 - PHP 默认无 UTF-16 意识,
mb_strlen($s, 'UTF-8')返回的是 Unicode 字符数(如"??".mb_strlen(...)是 1),仍≠ JS 的.length - 真正匹配 JS 行为的方法是:先将 UTF-8 字符串转成 UTF-16LE,再按字节长度 ÷ 2 —— 因为每个 UTF-16 码元是 2 字节(BMP 内),代理对(surrogate pair)则占 4 字节(即两个码元)
用 mb_convert_encoding() + strlen() 模拟 JS .length
这是目前最可靠、无需扩展、兼容 PHP 7.4+ 的做法:
function jsStringLength(string $s): int
{
// 转成 UTF-16LE(小端),JS 引擎内部表示方式之一
$utf16 = mb_convert_encoding($s, 'UTF-16LE', 'UTF-8');
// UTF-16LE 下每个码元占 2 字节 → 总字节数 ÷ 2 = 码元个数 = JS .length
return strlen($utf16) / 2;
}
验证示例:
立即学习“PHP免费学习笔记(深入)”;
-
jsStringLength("a")→ 1(UTF-16LE 是"a\0",2 字节 → ÷2 = 1) -
jsStringLength("中")→ 1(U+4E2D,在 BMP 内,UTF-16LE 为 2 字节) -
jsStringLength("?")→ 2(U+1F680,需代理对,UTF-16LE 占 4 字节 → ÷2 = 2) -
jsStringLength("??")→ 7(5 个 Unicode 字符 + 2 个 ZWJ,共 7 个 UTF-16 码元)
注意:mb_convert_encoding() 必须启用 mbstring 扩展,且目标编码必须是 'UTF-16LE'(不能用 UTF-16,因默认大端会受 BOM 影响)。
前端传长度时别信 input.maxLength 或服务端截断逻辑
很多同学让前端先算 .length 再 POST 给 PHP 校验,看似保险,实则埋雷:
- 用户可能绕过前端校验(禁用 JS、curl 直发)→ 后端仍需独立计算并拒绝超长内容
- 某些浏览器/输入法会在粘贴时插入零宽字符(如
\u200D、\uFE0F),JS.length包含它们,但用户看不见;PHP 若用错函数就判“未超限”,实际存入数据库后展示异常 -
textarea.maxLength是 DOM 属性,值来自 HTML,和 JS 运行时.length无关;它只限制表单提交前的输入,不可作为服务端依据
正确做法:前后端各自独立计算长度(PHP 用上面的 jsStringLength()),且服务端必须做最终校验与截断(用 mb_substr($s, 0, $max, 'UTF-8') 截 Unicode 字符,不是 substr())。
MySQL 存储层也要对齐:字段长度用 CHARACTER SET utf8mb4,别用 utf8
即使 PHP 长度判断完全对齐 JS,如果 MySQL 字段是 utf8(实际是 utf8mb3),遇到 4 字节字符(如 emoji、部分生僻汉字)就会被截断或报错,导致“前端能输、PHP 说合法、DB 存失败”。
- 确认建表语句含
CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci - 连接时设置
charset=utf8mb4(PDO DSN 加;charset=utf8mb4,mysqli 用set_charset('utf8mb4')) -
VARCHAR(255)在utf8mb4下最多存 255 个字符(非字节),和 JS.length对齐的前提是:PHP 校验也按码元数,DB 存储不限字节膨胀
最容易被忽略的一点:PHP 的 jsStringLength() 返回的是码元数,而 MySQL 的 VARCHAR(N) 限制的是字符数(Unicode code points),不是码元数。所以严格来说,二者并不完全数学等价 —— 但实践中,只要前端不故意塞大量代理对(如连续几百个 emoji),偏差可接受;真正需要强一致的场景(如用户名唯一性校验),建议统一用 Unicode 字符数(mb_strlen($s, 'UTF-8'))并要求前端也用 Intl API 做等价处理。











