XML中存在非法字符怎么处理？一个正则表达式帮你快速清理无效数据-XML/RSS教程-PHP中文网

XML中存在非法字符怎么处理？一个正则表达式帮你快速清理无效数据

月夜之吻

发布： 2025-11-28 20:00:07

原创

321人浏览过

XML非法字符会导致解析失败，常见于数据导入或用户输入未过滤场景。根据W3C标准，XML 1.0仅允许特定字符范围，如#x9、#xA、#xD、#x20-#xD7FF等，而#x0-#x8、#xB、#xC、#xE-#x1F等控制字符属于非法内容，需清除或替换。可通过正则表达式1匹配并移除非法字符，需确保环境支持Unicode模式。Python示例使用re.sub结合re.UNICODE标志进行清洗。建议直接删除非法字符，必要时替换为占位符或记录日志，处理前备份原始数据，并在系统入口如API或文件导入阶段即执行清洗，结合解析器错误定位问题，有效避免解析异常。\x09\x0A\x0D\x20-\uD7FF\uE000-\uFFFD\U00010000-\U0010FFFF ↩

xml中存在非法字符怎么处理？一个正则表达式帮你快速清理无效数据

XML中出现非法字符会导致解析失败，常见于从不同系统导入数据或用户输入未过滤的场景。这些字符虽然在普通文本中可见，但不符合XML 1.0规范，必须清除或替换。

XML中的非法字符范围

根据W3C标准，XML 1.0只允许以下字符：

#x9（Tab）
#xA（换行）
#xD（回车）
#x20 到 #xD7FF
#xE000 到 #xFFFD
#x10000 到 #x10FFFF

也就是说，像 #x0 到 #x8、#xB、#xC、#xE 到 #x1F 这类控制字符属于非法内容，即使肉眼不可见，也会导致解析出错。

使用正则表达式清理非法字符

你可以用下面这个正则表达式匹配并移除XML中的非法字符：

[^\x09\x0A\x0D\x20-\uD7FF\uE000-\uFFFD\u{10000}-\u{10FFFF}]

注意：该表达式使用了Unicode区间，需确保你的编程环境支持Unicode模式（如Java的 Pattern.UNICODE_CHARACTER_CLASS，或Python的 re.UNICODE）。

Bolt.new

Bolt.new是一个免费的AI全栈开发工具

466

查看详情

示例（Python）：

import re
def clean_xml_text(text):
cleaned = re.sub(r'[^\x09\x0A\x0D\x20-\uD7FF\uE000-\uFFFD\U00010000-\U0010FFFF]', '', text, flags=re.UNICODE)
return cleaned