XML文件内容被转义怎么办恢复为原始符号

星降

发布时间：2026-02-17 10:16:03

144人浏览过

来源于php中文网

原创

xml解析时<变成文字是因为xml被双重编码，需用stringescapeutils.unescapexml()（java）或xml.sax.saxutils.unescape()（python）还原标准实体后再解析，不可用replace或html解码器。

xml文件内容被转义怎么办恢复<和>为原始符号

XML解析时`<`变成文字而不是标签怎么办

这是典型的XML实体转义问题：原始XML里的、<code>>、&被提前替换成<、>、&，导致解析器读不到合法结构，直接报错或把整段当文本处理。

根本原因不是“XML写错了”，而是内容在某一层（比如HTTP响应体、数据库字段、日志拼接）被双重编码了。你拿到的已经不是XML，是XML的字符串表示。

别用String.replace()硬替换——容易漏掉"、'，还可能误伤正常文本里的<
别手动拼XML再解析——绕过标准解析流程，等于放弃命名空间、DTD校验、字符集自动识别等保障
优先确认源头：是后端返回的JSON里嵌了转义后的XML字符串？还是前端用textContent取了XML节点结果？定位错层，修半天白忙

Java用`DocumentBuilder`解析前必须预处理转义字符吗

不需要。标准DocumentBuilder只认合法XML语法，传入含<的字符串会直接抛SAXParseException，错误信息通常是The content of elements must consist of well-formed character data or markup。

正确做法是先还原成原始XML字符串，再交给解析器。但还原不能靠正则，要用专门的HTML/XML解码工具，因为：

org.apache.commons.text.StringEscapeUtils.unescapeXml()能处理全部5个标准实体（< > & " '），且不碰非实体内容
JDK原生没有等效API，java.net.URLDecoder或URLEncoder完全不适用——它们针对URL编码，和XML实体无关
如果字符串里混有HTML实体（如），unescapeXml()会忽略，避免意外污染

示例：

String rawXml = "<root><item>A&B</item></root>";
String fixed = StringEscapeUtils.unescapeXml(rawXml);
// → <root><item>A&B</item></root>
Document doc = DocumentBuilderFactory.newInstance().newDocumentBuilder().parse(new ByteArrayInputStream(fixed.getBytes(StandardCharsets.UTF_8)));

Python里`xml.etree.ElementTree`报`ParseError: not well-formed`怎么修

错误本质和Java一样：输入字符串含未还原的实体。但Python生态更易踩坑——很多人用html.unescape()，它虽能解<，却会把也转成空格，破坏XML语义；还有人用BeautifulSoup先解析再导出，引入额外依赖且可能改写命名空间。

Yourware

专注于AI编程作品部署与分享的云托管平台

下载

安全做法只有两种：

用xml.sax.saxutils.unescape()——它是XML模块自带的，专为XML实体设计，只处理标准5个，不碰其他
如果确定输入是纯XML实体（无HTML扩展），用html.unescape()也可，但必须加判断：if '<' in xml_str or '>' in xml_str:再调用
绝对不要用str.replace('<', '')——&会被漏掉，且<script>这种会被错误还原成<script></script>，触发XSS风险（即使当前场景不执行JS，也属数据污染）

示例：

import xml.sax.saxutils
raw = "<data><val>10&20</val></data>"
fixed = xml.sax.saxutils.unescape(raw)
# → <data><val>10&20</val></data>
import xml.etree.ElementTree as ET
root = ET.fromstring(fixed)

浏览器里用`DOMParser`解析`<`开头的字符串失败

现象是parseFromString(str, 'text/xml')返回的document.documentElement为null，或parseError显示Invalid XML。这是因为DOMParser严格遵循XML规范，不接受已转义的内容。

修复关键点就一个：必须在调用前还原。但注意浏览器环境没有StringEscapeUtils，得自己实现轻量解码：

用textarea临时元素是最兼容方案：const el = document.createElement('textarea'); el.innerHTML = escapedStr; return el.value;——利用浏览器内置HTML解析器还原实体，安全且覆盖所有标准实体
别用innerHTML直接设到div再取textContent——会丢失<script></script>等特殊标签的原始结构，且textContent会把换行符标准化
如果字符串来自fetch响应，检查response.headers.get('content-type')是否为application/xml；若是text/plain或application/json，说明服务端本就没按XML发，转义是它自己的逻辑问题

这个环节最容易被忽略：以为“能用fetch拿到字符串就等于XML可用”，其实传输格式和内容格式是两回事。

相关标签:

json xss beautifulsoup String NULL if 命名空间 xml const 字符串 JS innerHTML 数据库 apache http

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：C# XmlWriter.Create settings 创建XML写入器下一篇：Python lxml去除命名空间如何在解析时忽略xmlns属性

作者最新文章

Edge浏览器历史记录怎么同步 Edge跨设备同步浏览记录方法【指南】

2026-02-16 16:45

Windows怎么查看主板BIOS的发布日期和版本 Win10/Win11查询固件教程

2026-02-16 16:53

Win11怎么开启系统自带的色彩滤镜 Windows11护眼色盲模式设置教程

2026-02-16 16:54

小红书直播间怎么搭低成本打造高转化场景【设备】

2026-02-16 17:03

哔哩轻小说海外入口_全球用户官方访问渠道

2026-02-16 17:14

浏览器怎么关闭右键菜单多余项菜单栏精简优化教程【方法】

2026-02-16 17:15

谷歌浏览器怎么重置设置谷歌浏览器恢复出厂设置方法

2026-02-16 17:17

Windows怎么查看CPU是否支持虚拟化技术 Win10/Win11开启VT教程

2026-02-16 17:20

浏览器提示链接不是私密连接怎么办浏览器绕过私密连接警告方法

2026-02-16 17:29

DeepSeek Coder和GitHub Copilot，哪个是程序员的最佳搭档？

2026-02-16 17:42

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

AI 图片处理图片拼接

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章，帮助大家解决问题。

442

2023.08.07

json是什么

JSON是一种轻量级的数据交换格式，具有简洁、易读、跨平台和语言的特点，JSON数据是通过键值对的方式进行组织，其中键是字符串，值可以是字符串、数值、布尔值、数组、对象或者null，在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容，供大家免费下载体验。

544

2023.08.23