PHP中strlen()返回字节数而非字符数,UTF-8下中文占3字节,应使用mb_strlen($str, 'UTF-8');若报错则需启用mbstring扩展;trim后长度异常可能因隐藏Unicode字符,可用bin2hex或正则清理;数据库VARCHAR长度按字符计,但需确保全链路utf8mb4统一。

strlen() 在中文字符串上返回值偏小
PHP 的 strlen() 统计的是字节数,不是字符数。UTF-8 编码下,一个中文字符占 3 个字节,strlen("你好") 返回 6,而非 2 —— 这是绝大多数误判字符串“长度不够”的根源。
实际排查时,先确认字符串编码:
- 用
mb_detect_encoding($str)粗略判断(注意它不可靠,仅作参考) - 更稳妥的是明确源头:数据库连接是否设了
SET NAMES utf8mb4?HTML 响应头或是否声明 UTF-8? - 若确定是 UTF-8,统一改用
mb_strlen($str, 'UTF-8')
mb_strlen() 不生效,报 Warning:mbstring 扩展未启用
调用 mb_strlen() 报错 “Call to undefined function mb_strlen()”,说明 PHP 环境缺失 mbstring 扩展。这不是代码逻辑问题,而是运行环境配置缺失。
验证和修复步骤:
立即学习“PHP免费学习笔记(深入)”;
- 执行
php -m | grep mbstring(命令行)或print_r(get_loaded_extensions())(Web 环境)确认扩展是否存在 - Linux + apt:安装
php-mbstring包后重启 php-fpm 或 Apache -
macOS + Homebrew:运行
brew install php@8.2-mbstring(版本需匹配) - Windows:检查
php.ini中extension=mbstring是否取消注释,且extension_dir路径正确
trim() 后 strlen() 仍不等于预期,隐藏字符在作怪
用户输入看似“空”或“只有几个字”,但 strlen(trim($input)) 比预期大,常见于粘贴内容带不可见 Unicode 字符(如零宽空格 \xe2\x80\x8b、软连字符 \xc2\xad、BOM 头等)。
快速检测与清理方法:
- 用
bin2hex($input)查看原始字节,定位异常十六进制序列 - 用正则清除常见控制字符:
preg_replace('/[\x00-\x08\x0B\x0C\x0E-\x1F\x7F-\x9F]/u', '', $input) - 更彻底的方案:强制转为规范 UTF-8 并忽略非法序列:
mb_convert_encoding($input, 'UTF-8', 'UTF-8')
数据库字段长度限制与 PHP 判断不一致
表字段定义为 VARCHAR(10),但插入时提示 “Data too long”,而 PHP 用 mb_strlen($str, 'UTF-8') 显示是 10 —— 这通常是因为 MySQL 的 utf8mb4 下某些 emoji 占 4 字节,但 mb_strlen() 仍按字符计为 1,而字段长度是按字符数限制的(没错),真正陷阱在于:MySQL 实际校验前可能已对字符串做了隐式截断或编码转换。
安全做法:
- 确保连接层、表、字段、客户端全部统一使用
utf8mb4 - 避免依赖 PHP 层“提前判断”,改用数据库约束 +
INSERT ... ON DUPLICATE KEY UPDATE或捕获SQLSTATE 22001错误 - 若必须前端校验,用
mb_strcut($str, 0, 10, 'UTF-8')模拟 MySQL 截断逻辑(它按字符而非字节切)











