PHP大小写转换必须用mb_*函数并指定UTF-8编码,否则中文、emoji等会乱码;ucfirst/ucwords对非ASCII无效;mb_convert_case支持多语言标题/句首大写。

strtolower 和 strtoupper 用错场景会丢数据
PHP 字符串大小写转换不是简单套函数就能完事。中文、emoji、带重音符号的西欧字符(比如 à, ñ)用 strtolower 或 strtoupper 处理会直接变乱码或被截断——因为这两个函数只认 ASCII,对 UTF-8 多字节字符完全无感。
常见错误现象:
$str = "café"; echo strtoupper($str); // 输出 "CAFÉ"?不,实际是 "CAFé"(é 没变大写)或更糟的乱码
- 仅用于纯英文 ASCII 字符串(如数据库字段名、HTTP header key)
- 不要用于用户输入、网页内容、文件名等可能含非 ASCII 字符的场景
- 在 PHP 8+ 中,它们对非 ASCII 字符的行为未定义,不同环境结果可能不一致
mb_strtolower / mb_strtoupper 是 UTF-8 安全的默认选择
真正处理现代 Web 场景(中文、日文、德语变音符号、emoji)必须用 mb_* 系列函数,并显式指定编码。漏掉 encoding 参数等于白用——默认编码取决于 mb_internal_encoding(),而这个值可能在不同服务器上被改过。
正确写法:
mb_internal_encoding('UTF-8'); // 全局设一次,或
echo mb_strtoupper("你好 world café ?", 'UTF-8'); // 输出:"你好 WORLD CAFÉ ?"
- 必须传入
'UTF-8'第二个参数,不能省略 - 若项目已统一设置
mb_internal_encoding('UTF-8'),可省略第二参数,但建议保留以提高可读性和健壮性 - 性能比
strtoupper略低,但对绝大多数应用可忽略;别为这点性能牺牲正确性
ucfirst / ucwords 对中文无效,别硬套
ucfirst 只把字符串第一个字节转大写,ucwords 按空格切分后对每段首字节操作。它们对中文、日文等无空格分词的语言完全失效,甚至可能破坏 UTF-8 编码:
echo ucfirst("你好 world"); // 输出 "\xE4\xBD\xA0\u597D world" —— 实际显示乱码或好 world
- 中文标题首字大写?不存在“首字母”概念,需按业务规则手动处理(如用
mb_substr+mb_strtoupper) - 英文混中文字符串的单词首字母大写?
ucwords会把“hello 世界”变成“Hello 世界”,因它把“世”字第一个字节当 ASCII 处理 - 真要实现智能首字母大写,得结合正则(匹配 \p{L} Unicode 字母类)和
mb_convert_case
mb_convert_case 提供更细粒度控制
当需要 title case(标题格式)、sentence case(句首大写)或兼容多语言时,mb_convert_case 是唯一靠谱选择。它支持 MB_CASE_TITLE、MB_CASE_SENTENCE,且底层走 Unicode 属性判断,不依赖空格或字节位置。
立即学习“PHP免费学习笔记(深入)”;
echo mb_convert_case("hello world 你好", MB_CASE_TITLE, 'UTF-8');
// 输出:"Hello World 你好"
echo mb_convert_case("i'm happy. you're here.", MB_CASE_SENTENCE, 'UTF-8');
// 输出:"I'm happy. You're here."
-
MB_CASE_TITLE会识别 Unicode 字母(包括中文、阿拉伯文、西里尔文),但不会强行给中文“首字大写”——中文本身没有大小写,所以保持原样 - 对中英混排文本最安全,不会破坏多字节序列
- 注意:PHP 7.3+ 才完整支持
MB_CASE_SENTENCE的 Unicode 句子边界检测;旧版本仍按英文标点粗略切分
'UTF-8' 的 mb_strtoupper,和一个对着中文用的 ucwords,线上跑半年都可能不报错,直到某天用户昵称里出现“ naïve ”或“ Pokémon ”才突然崩。











