CREATE DATABASE 时必须指定 utf8mb4 字符集和对应排序规则,同时确保 PHP 连接、表结构及 MySQL 配置均统一为 utf8mb4,四者缺一不可,否则 emoji 等四字节字符会乱码或报错。

CREATE DATABASE 时指定 utf8mb4 字符集
直接在 CREATE DATABASE 语句中声明字符集和排序规则,是最可靠、最可控的方式。不依赖 MySQL 服务端默认配置,避免后续插入 emoji 或四字节 UTF-8 字符时报错。
实操建议:
立即学习“PHP免费学习笔记(深入)”;
- 必须同时指定
CHARACTER SET utf8mb4和COLLATE utf8mb4_unicode_ci(或utf8mb4_0900_as_cs,取决于 MySQL 版本) - 不要只写
utf8—— 这是 MySQL 的别名,实际指向最多三字节的旧编码,不支持 emoji - 示例语句:
CREATE DATABASE myapp_db CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci;
- PHP 中执行该语句前,确保连接已设为 utf8mb4(见下一条)
PHP 连接 MySQL 后必须设置客户端编码为 utf8mb4
即使数据库建对了,PHP 的 PDO 或 mysqli 连接默认仍可能用 latin1 或 utf8 协议层编码,导致写入/读取乱码或截断。
实操建议:
立即学习“PHP免费学习笔记(深入)”;
- PDO 方式:在 DSN 中加
;charset=utf8mb4,且 不能仅靠set_charset()$pdo = new PDO('mysql:host=localhost;dbname=myapp_db;charset=utf8mb4', $user, $pass); - mysqli 方式:创建连接后立即调用
set_charset('utf8mb4'),必须在任何查询前执行$mysqli = new mysqli('localhost', $user, $pass, 'myapp_db');
$mysqli->set_charset('utf8mb4'); - 漏掉这步,
INSERT含 ??? 的数据大概率被静默转成 ? 或报错Incorrect string value
检查表和字段是否真正继承了 utf8mb4
数据库建对了 ≠ 表和字段就自动 utf8mb4。用 CREATE TABLE 建表时若没显式声明,会沿用数据库默认,但某些旧迁移脚本或 ORM 自动生成的 SQL 可能遗漏。
实操建议:
立即学习“PHP免费学习笔记(深入)”;
- 建表时显式指定:
CREATE TABLE users (name VARCHAR(255)) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_unicode_ci;
- 已有表可批量修正:
ALTER TABLE users CONVERT TO CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci;
- 验证是否生效:查
information_schema.columns或运行SHOW CREATE TABLE users,确认CHARSET和COLLATION字段值为utf8mb4 - 注意:
ALTER TABLE ... CONVERT TO会锁表,大数据量需评估时机
php.ini 和 MySQL 配置里的隐性陷阱
有些环境看似“能存 emoji”,实则靠配置补丁硬扛,一升级就崩。核心是确保协议层、服务层、存储层三者一致。
实操建议:
立即学习“PHP免费学习笔记(深入)”;
- MySQL 配置文件(
my.cnf或mysqld.cnf)中至少包含:[client]
default-character-set = utf8mb4
[mysql]
default-character-set = utf8mb4
[mysqld]
character-set-server = utf8mb4
collation-server = utf8mb4_unicode_ci - PHP 的
mysql.default_charset(已废弃)不用管;重点是 PDO / mysqli 连接时的显式设置 - 重启 MySQL 生效,但已有连接不受影响 —— 所以 PHP 侧的
set_charset或 DSN 参数仍是刚需
最容易被忽略的是:建库语句写了 utf8mb4,但连接没设、表没转、配置没配全 —— 四个环节缺一不可,少一个都可能在某个边界场景突然失败。











