JavaScript字符串_Unicode处理-js教程-PHP中文网

JavaScript字符串_Unicode处理

狼影

发布： 2025-11-29 10:13:16

原创

614人浏览过

JavaScript字符串基于UTF-16，使用\u{}、codePointAt、fromCodePoint和正则u标志可正确处理emoji及生僻字，避免代理对导致的长度误判。

javascript字符串_unicode处理

JavaScript 中的字符串基于 UTF-16 编码，这意味着每个字符通常以 16 位（2 字节）表示。然而，并非所有 Unicode 字符都能用一个 16 位单元完整表示，这就引出了对 Unicode 处理的深入理解需求，尤其是在处理 emoji、中文生僻字或特殊符号时。

Unicode 是为世界上所有语言字符提供唯一编号（称为码点，code point）的标准。码点通常写作 U+XXXX 形式，例如 U+0041 表示拉丁字母 A，U+4E2D 表示汉字“中”。

在 JavaScript 中，你可以使用 \uXXXX 表示基本多文种平面（BMP）内的字符（即 U+0000 到 U+FFFF）：

'\u0041' // "A"
'\u4E2D' // "中"

但超出 BMP 的字符（如一些 emoji 或罕见汉字），其码点大于 U+FFFF，就需要使用 代理对（surrogate pair） 来表示，即两个 16 位单元组合成一个字符。

例如，emoji ? 的码点是 U+1F643，超出了 16 位范围。在 UTF-16 中，它被编码为两个 代理项（surrogates）：D83D DE43。

直接使用 \u 转义会出错：

'\u1F643' // 错误：只会解析前四位 \u1F64，剩下 '3' 作为普通字符

正确方式是使用大括号语法 \u{...}，支持任意码点：

'\u{1F643}' // "?"，正确

也可以通过 String.fromCodePoint() 生成：

php

185

String.fromCodePoint(0x1F643) // "?"

由于代理对的存在，某些字符占两个位置，length 属性可能误导：

'?'.length // 2，不是 1！

要正确遍历或统计字符数，应使用 ES6 的 for...of 循环或 Array.from()：

for (const char of 'Hello ?') {
console.log(char);
}
// 分别输出 'H','e','l','l','o',' ','?' Array.from('?').length // 1，正确计数

或者使用 codePointAt() 获取完整的码点值：

const str = '?';
str.codePointAt(0).toString(16); // "1f643"

默认情况下，正则表达式无法正确识别代理对或 Unicode 属性。ES2015 引入了 u 标志，启用完整 Unicode 支持：

/^\w+$/.test('abc?') // true？错误，\w 不匹配 emoji /^\p{Emoji}$/u.test('?') // 需配合属性类（需额外支持）

更实用的是使用 \p{} 和 u 标志来匹配 Unicode 类别：

/\p{Script=Han}/u.test('你好') // true，匹配汉字
/^\p{Letter}+$/u.test('Hello') // true

注意：\p{} 在部分旧环境可能不支持，可借助第三方库如 regexpu 转换。

基本上就这些。掌握 \u{}、codePointAt、fromCodePoint 和正则 u 标志，就能准确处理 JavaScript 中的 Unicode 字符串问题。关键是要意识到字符串长度和字符边界不总是一一对应。

以上就是JavaScript字符串_Unicode处理的详细内容，更多请关注php中文网其它相关文章！

大家都在看：

JavaScript大数运算_BigInt使用指南 JavaScript桌面应用_Electron多进程架构实战 JavaScript装饰器_元编程实战 JavaScript移动适配_响应式设计实现方案 JavaScript组合继承_多种继承方式