0

0

怎么用正则表达式删除乱码_正则匹配并清除文本中的乱码字符

幻夢星雲

幻夢星雲

发布时间:2026-01-09 17:01:33

|

123人浏览过

|

来源于php中文网

原创

可通过正则表达式精准清除乱码:一、匹配删除unicode无效与私有区字符;二、清除utf-8损坏字节序列;三、按unicode类别排除控制符等;四、白名单式保留指定语言字符。

怎么用正则表达式删除乱码_正则匹配并清除文本中的乱码字符

如果文本中出现了无法识别的字符或乱码,例如、、等替换符号,或非Unicode标准范围内的控制字符、私有区符号、未定义码点等,可通过正则表达式精准定位并清除。以下是几种可行的清除方法:

一、匹配并删除Unicode无效与私有区字符

该方法基于Unicode标准,排除合法文字范围(如常见汉字、英文字母、数字、标点),仅保留基本多语言平面(BMP)中广泛支持的字符,同时剔除U+FFFE、U+FFFF、代理对高位/低位、私有使用区(U+E000–U+F8FF、U+F900–U+FAD9等)及控制字符(U+0000–U+001F、U+007F–U+009F)。

1、使用正则表达式 [^\u0020-\u007E\u00A0-\u00FF\u4E00-\u9FFF\u3400-\u4DBF\u3000-\u303F\u3040-\u309F\u30A0-\u30FF\uFF00-\uFFEF] 匹配所有非预期字符。

2、在Python中调用 re.sub():执行 re.sub(r'[^\u0020-\u007E\u00A0-\u00FF\u4E00-\u9FFF\u3400-\u4DBF\u3000-\u303F\u3040-\u309F\u30A0-\u30FF\uFF00-\uFFEF]', '', text)

3、在JavaScript中使用 text.replace(/[^\u0020-\u007E\u00A0-\u00FF\u4E00-\u9FFF\u3400-\u4DBF\u3000-\u303F\u3040-\u309F\u30A0-\u30FF\uFF00-\uFFEF]/g, '')

二、清除UTF-8编码损坏产生的字节序列

当原始文本被错误解码(如将UTF-8字节流以ISO-8859-1读取),会生成形如 \xC3\xA9 解析失败后的孤立高位字节(如 或类似 \x80\x81 类片段)。此类乱码常表现为单个U+FFFD REPLACEMENT CHARACTER,或连续出现的不可见控制符组合。

1、匹配U+FFFD替换符及其相邻异常组合:正则为 [\uFFFD]+|[\x00-\x08\x0B\x0C\x0E-\x1F\x7F-\x9F]

2、在Python中执行 re.sub(r'[\uFFFD]+|[\x00-\x08\x0B\x0C\x0E-\x1F\x7F-\x9F]', '', text)

3、若需保留换行与制表符,可将正则微调为 [\uFFFD]+|[\x00-\x08\x0E-\x1F\x7F-\x9F](显式排除 \x09 \x0A \x0D)。

AskManyAI
AskManyAI

AskManyAI是个一站式AI聚合平台,集成了国内外多个主流顶尖AI大模型

下载

三、按字符类别排除C0/C1控制符与非图形字符

利用Unicode通用类别(General Category)匹配方式,在支持PCRE或Python regex 模块(非内置 re)的环境中,可直接排除控制字符(Cc)、格式字符(Cf)、未分配字符(Cn)、私有字符(Co)及代理项(Cs)。

1、启用Unicode属性匹配,使用正则 [\p{Cc}\p{Cf}\p{Cs}\p{Co}\p{Cn}]+(注意:Python内置 re 不支持 \p{},需改用 regex 第三方库)。

2、安装并导入:运行 pip install regex,然后代码中使用 import regex; regex.sub(r'[\p{Cc}\p{Cf}\p{Cs}\p{Co}\p{Cn}]+', '', text)

3、在支持PCRE的工具(如Notepad++、Sublime Text)中,启用“匹配Unicode属性”选项后,直接搜索 \p{C} 并替换为空。

四、保留指定语言字符集,其余一律清除

当明确文本应仅含某几种语言(如简体中文+英文+数字+常用标点),可构造白名单式正则,避免误删正常内容,同时彻底排除其他所有字符。

1、构建白名单正则:包含ASCII可打印字符、全角ASCII对应符号、GB2312常用汉字、中文标点、日文平假名/片假名(如需)——示例为 [a-zA-Z0-9\s\u0021-\u007E\u3000-\u303F\u3040-\u309F\u30A0-\u30FF\u4E00-\u9FFF\u3400-\u4DBF]

2、执行反向清除:先用该正则提取所有合法字符,再拼接成新字符串;或用否定逻辑:匹配非白名单字符,即 [^a-zA-Z0-9\s\u0021-\u007E\u3000-\u303F\u3040-\u309F\u30A0-\u30FF\u4E00-\u9FFF\u3400-\u4DBF]

3、在sed命令中使用UTF-8环境:执行 sed -E 's/[^a-zA-Z0-9[:space:]\u0021-\u007E\u3000-\u303F\u4E00-\u9FFF]//g'(需GNU sed 4.8+ 且 locale 设置为UTF-8)。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
js正则表达式
js正则表达式

php中文网为大家提供各种js正则表达式语法大全以及各种js正则表达式使用的方法,还有更多js正则表达式的相关文章、相关下载、相关课程,供大家免费下载体验。

530

2023.06.20

正则表达式不包含
正则表达式不包含

正则表达式,又称规则表达式,,是一种文本模式,包括普通字符和特殊字符,是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串,通常被用来检索、替换那些符合某个模式的文本。php中文网给大家带来了有关正则表达式的相关教程以及文章,希望对大家能有所帮助。

258

2023.07.05

java正则表达式语法
java正则表达式语法

java正则表达式语法是一种模式匹配工具,它非常有用,可以在处理文本和字符串时快速地查找、替换、验证和提取特定的模式和数据。本专题提供java正则表达式语法的相关文章、下载和专题,供大家免费下载体验。

765

2023.07.05

java正则表达式匹配字符串
java正则表达式匹配字符串

在Java中,我们可以使用正则表达式来匹配字符串。本专题为大家带来java正则表达式匹配字符串的相关内容,帮助大家解决问题。

219

2023.08.11

正则表达式空格
正则表达式空格

正则表达式空格可以用“s”来表示,它是一个特殊的元字符,用于匹配任意空白字符,包括空格、制表符、换行符等。本专题为大家提供正则表达式相关的文章、下载、课程内容,供大家免费下载体验。

356

2023.08.31

Python爬虫获取数据的方法
Python爬虫获取数据的方法

Python爬虫可以通过请求库发送HTTP请求、解析库解析HTML、正则表达式提取数据,或使用数据抓取框架来获取数据。更多关于Python爬虫相关知识。详情阅读本专题下面的文章。php中文网欢迎大家前来学习。

293

2023.11.13

正则表达式空格如何表示
正则表达式空格如何表示

正则表达式空格可以用“s”来表示,它是一个特殊的元字符,用于匹配任意空白字符,包括空格、制表符、换行符等。想了解更多正则表达式空格怎么表示的内容,可以访问下面的文章。

244

2023.11.17

正则表达式中如何匹配数字
正则表达式中如何匹配数字

正则表达式中可以通过匹配单个数字、匹配多个数字、匹配固定长度的数字、匹配整数和小数、匹配负数和匹配科学计数法表示的数字的方法匹配数字。更多关于正则表达式的相关知识详情请看本专题下面的文章。php中文网欢迎大家前来学习。

546

2023.12.06

Rust内存安全机制与所有权模型深度实践
Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开,深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例,分析内存安全保障原理与零成本抽象优势,并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学,掌握在高性能与安全性并重场景中的工程实践能力。

4

2026.03.05

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
React 教程
React 教程

共58课时 | 5.7万人学习

TypeScript 教程
TypeScript 教程

共19课时 | 3.3万人学习

Bootstrap 5教程
Bootstrap 5教程

共46课时 | 3.5万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号