0

0

Unicode 中的隐形字符:从零宽空格到不可见分隔符的完整指南

霞舞

霞舞

发布时间:2026-01-07 14:34:53

|

747人浏览过

|

来源于php中文网

原创

Unicode 中的隐形字符:从零宽空格到不可见分隔符的完整指南

本文详解 unicode 中多种隐形字符(如零宽空格 u+200b、零宽非连接符 u+200c 等)的特性、输入方法、编程处理技巧及实际应用注意事项,帮助开发者安全识别、插入与防御隐形字符风险。

Unicode 标准定义了大量视觉上不可见但具有语义或格式功能的字符,远不止普通空格(U+0020)。这些“隐形字符”在文本渲染中不显示图形符号,却可能影响排版、分词、比较、复制粘贴甚至安全逻辑——例如被用于混淆代码、绕过内容审核或构造隐蔽水印。

常见隐形 Unicode 字符一览

以下是最常用且具代表性的几类:

百宝箱
百宝箱

百宝箱是支付宝推出的一站式AI原生应用开发平台,无需任何代码基础,只需三步即可完成AI应用的创建与发布。

下载
Unicode 名称 作用说明 可视性
U+200B 零宽空格(Zero Width Space, ZWS) 允许断行,但不占空间;常用于长单词内软换行点 完全不可见,多数编辑器默认不渲染
U+200C 零宽非连接符(Zero Width Non-Joiner, ZWNJ) 阻止相邻字符连字(如阿拉伯文、梵文中) 不可见,无空白效果
U+200D 零宽连接符(Zero Width Joiner, ZWJ) 强制连接字符(如 emoji 组合 ?‍?) 不可见,仅影响渲染逻辑
U+2060 词连接符(Word Joiner) 类似 ZWS 但禁止断行,更“强硬”的连接控制 不可见,无空白
U+FEFF 字节顺序标记(BOM) 常见于 UTF-8/16 文件头,作为签名;若出现在文本中间则为“零宽不中断空格”(已弃用) 编辑器通常隐藏,但可能引发解析异常
✅ 提示:U+200B 是最常被用作“纯隐形占位符”的选择——它既不会产生空白间隙,也不会触发断行(除非上下文需要),因此比空格更“隐蔽”。

如何输入与验证隐形字符?

✅ 手动输入(Windows / macOS / Linux)

  • Windows:按住 Alt,输入 Unicode 十六进制码(需前置 0),再松开 Alt + 按 X。
    例如:输入 200B → 按 Alt+X → 得到 U+200B(需确保输入法为英文)。
  • macOS:启用「Unicode Hex Input」输入法后,按住 Option + 输入 200B。
  • VS Code / IntelliJ 等现代编辑器:启用「渲染不可见字符」功能(如 VS Code 设置 "editor.renderWhitespace": "all" 或安装插件 Highlight Bad Chars),可高亮显示 ZWS、ZWJ 等。

✅ 编程方式插入(Python 示例)

# 插入零宽空格
text = "Hello" + "\u200b" + "World"
print(repr(text))  # 'Hello\u200bWorld'
print(len(text))   # 11(比 "HelloWorld" 多 1)

# 批量检测文本中是否含隐形字符
invisible_ranges = [
    (0x200B, 0x200F),  # 零宽系列
    (0x202A, 0x202E),  # 方向覆盖控制符
    (0x2060, 0x2064),  # 词连接符等
    (0xFEFF, 0xFEFF),  # BOM
]

def has_invisible_char(s: str) -> bool:
    for ch in s:
        c = ord(ch)
        if any(start <= c <= end for start, end in invisible_ranges):
            return True
    return False

print(has_invisible_char("Hello\u200bWorld"))  # True

⚠️ 实际开发中的关键注意事项

  • 复制粘贴陷阱:网页中嵌入的隐形字符(如 invisiblecharacter.net 提供的)在复制时可能丢失或被编辑器过滤——并非所有环境都保留其原始编码
  • 字符串比较失效:"test" == "test\u200b" 返回 False,但肉眼无法分辨,易导致权限校验、哈希比对、白名单匹配等逻辑漏洞;
  • 正则与清洗盲区:\s(空白符)不匹配 U+200B 等零宽字符;需显式排除:
    [\u200B-\u200F\u202A-\u202E\u2060-\u2064\uFEFF]
  • 安全建议
    • 用户输入文本入库前,应调用 normalize('NFKC', text)(Python unicodedata)进行标准化,并可选移除零宽控制符;
    • 敏感字段(如用户名、token、命令参数)建议使用白名单正则(如 ^[a-zA-Z0-9_\-]+$)严格校验;
    • CI/CD 或代码审查中,可用工具(如 truffleHog, git-secrets 扩展)扫描隐形字符注入。

掌握隐形 Unicode 字符不是为了“隐藏”,而是为了看见不可见之处——在文本处理日益复杂的今天,它们既是排版利器,也是潜在的安全暗礁。合理识别、审慎使用、主动防御,方能在细节处守住系统稳健的底线。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
登录token无效
登录token无效

登录token无效解决方法:1、检查token的有效期限,如果token已经过期,需要重新获取一个新的token;2、检查token的签名,如果签名不正确,需要重新获取一个新的token;3、检查密钥的正确性,如果密钥不正确,需要重新获取一个新的token;4、使用HTTPS协议传输token,建议使用HTTPS协议进行传输 ;5、使用双因素认证,双因素认证可以提高账户的安全性。

6608

2023.09.14

登录token无效怎么办
登录token无效怎么办

登录token无效的解决办法有检查Token是否过期、检查Token是否正确、检查Token是否被篡改、检查Token是否与用户匹配、清除缓存或Cookie、检查网络连接和服务器状态、重新登录或请求新的Token、联系技术支持或开发人员等。本专题为大家提供token相关的文章、下载、课程内容,供大家免费下载体验。

842

2023.09.14

token怎么获取
token怎么获取

获取token值的方法:1、小程序调用“wx.login()”获取 临时登录凭证code,并回传到开发者服务器;2、开发者服务器以code换取,用户唯一标识openid和会话密钥“session_key”。想了解更详细的内容,可以阅读本专题下面的文章。

1092

2023.12.21

token什么意思
token什么意思

token是一种用于表示用户权限、记录交易信息、支付虚拟货币的数字货币。可以用来在特定的网络上进行交易,用来购买或出售特定的虚拟货币,也可以用来支付特定的服务费用。想了解更多token什么意思的相关内容可以访问本专题下面的文章。

2175

2024.03.01

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

760

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

221

2023.09.04

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1566

2023.10.24

字符串介绍
字符串介绍

字符串是一种数据类型,它可以是任何文本,包括字母、数字、符号等。字符串可以由不同的字符组成,例如空格、标点符号、数字等。在编程中,字符串通常用引号括起来,如单引号、双引号或反引号。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

649

2023.11.24

C# ASP.NET Core微服务架构与API网关实践
C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开,系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例,帮助开发者掌握构建高可用微服务系统的关键技术,提高系统的可扩展性与维护效率。

76

2026.03.11

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
PostgreSQL 教程
PostgreSQL 教程

共48课时 | 10.5万人学习

Git 教程
Git 教程

共21课时 | 4.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号