如何在 Java 中安全地清理 XML 属性值中的特殊字符（不破坏结构）

心靈之曲

发布时间：2026-03-12 09:25:18

499人浏览过

来源于php中文网

原创

如何在 Java 中安全地清理 XML 属性值中的特殊字符（不破坏结构）

本文详解为何不能用正则表达式直接处理 xml，强调必须使用标准 xml 解析器（如 dom、sax 或 stax）遍历节点并精准修改属性值，同时提供可运行的 dom 实现示例与关键注意事项。

本文详解为何不能用正则表达式直接处理 xml，强调必须使用标准 xml 解析器（如 dom、sax 或 stax）遍历节点并精准修改属性值，同时提供可运行的 dom 实现示例与关键注意事项。

在 Java 中安全清理 XML 数据中的特殊字符（例如过滤掉非字母数字及常见安全符号），绝不可依赖 String.replaceAll() 对原始 XML 字符串进行全局正则替换。原因根本在于：XML 是一种上下文无关（且非正则）的语言，其嵌套结构、命名空间前缀（如 XYZ:CompanyCd）、转义序列（如 &）、CDATA 段、注释和 DTD 声明等特性，均无法被正则表达式可靠识别与隔离。一旦对字符串粗暴执行 [^A-Za-z0-9#&',-.\n>]+ 类替换，极易误删标签名中的冒号 :、破坏实体引用（如将 < 截断为 lt;）、删除必需的空白或破坏自闭合标签（如），最终导致 XML 无效甚至解析失败。

正确的做法是：将 XML 视为结构化数据，而非纯文本。使用符合 W3C 标准的 XML 解析器加载文档，遍历所有元素节点（Element），再逐个访问其属性（Attr），仅对属性值（getNodeValue()）应用清洗逻辑，最后序列化回合法 XML 字符串。此方式天然规避了结构污染风险，确保标签名、命名空间、文本内容与属性边界严格分离。

以下是一个基于 Java 内置 DOM 解析器的完整实现示例（兼容 Java 8+）：

ColorMagic

AI调色板生成工具

下载

import org.w3c.dom.*;
import javax.xml.parsers.DocumentBuilder;
import javax.xml.parsers.DocumentBuilderFactory;
import javax.xml.transform.*;
import javax.xml.transform.dom.DOMSource;
import javax.xml.transform.stream.StreamResult;
import java.io.StringReader;
import java.io.StringWriter;
import java.util.regex.Pattern;

public class XmlAttributeSanitizer {

    // 定义安全字符白名单：允许字母、数字、常用分隔符与 XML 实体安全符号
    private static final Pattern SAFE_ATTR_PATTERN = 
        Pattern.compile("[^A-Za-z0-9#&',\.\-\s]");

    public static String sanitizeAttributeValues(String xmlString) throws Exception {
        // 1. 解析 XML 字符串为 Document 对象（自动处理命名空间、转义等）
        DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();
        factory.setNamespaceAware(true); // 支持带前缀的标签（如 XYZ:CompanyCd）
        factory.setIgnoringElementContentWhitespace(true);
        DocumentBuilder builder = factory.newDocumentBuilder();
        Document doc = builder.parse(new InputSource(new StringReader(xmlString)));

        // 2. 深度优先遍历所有元素节点
        NodeList elements = doc.getElementsByTagName("*");
        for (int i = 0; i < elements.getLength(); i++) {
            Node node = elements.item(i);
            if (node.getNodeType() == Node.ELEMENT_NODE) {
                Element elem = (Element) node;
                // 3. 遍历当前元素的所有属性
                NamedNodeMap attrs = elem.getAttributes();
                for (int j = 0; j < attrs.getLength(); j++) {
                    Attr attr = (Attr) attrs.item(j);
                    String originalValue = attr.getNodeValue();
                    // 4. 仅清洗属性值，保留原始属性名（含命名空间前缀）
                    String cleanedValue = SAFE_ATTR_PATTERN.matcher(originalValue).replaceAll("");
                    attr.setNodeValue(cleanedValue);
                }
            }
        }

        // 5. 序列化为标准化 XML 字符串（自动转义、缩进可选）
        TransformerFactory tf = TransformerFactory.newInstance();
        Transformer transformer = tf.newTransformer();
        transformer.setOutputProperty(OutputKeys.INDENT, "yes");
        transformer.setOutputProperty("{http://xml.apache.org/xslt}indent-amount", "2");

        StringWriter writer = new StringWriter();
        transformer.transform(new DOMSource(doc), new StreamResult(writer));
        return writer.toString();
    }

    // 使用示例
    public static void main(String[] args) throws Exception {
        String inputXml = """
            <PersPolicy>
                <AccountNumberId>JY00000830</AccountNumberId>
                <XYZ:CompanyCd>DOC</XYZ:CompanyCd>
                <QuestionAnswer>
                    <QuestionCd>XYZ:1</QuestionCd>
                    <YesNoCd>No</YesNoCd>
                </QuestionAnswer>
                <Location id="LOC-1">
                    <Addr>
                        <Addr1>`**`1234 $$$RIVERWOOD !!<GATE SUITE> 136`**`</Addr1>
                    </Addr>
                </Location>
            </PersPolicy>
            """;

        String cleaned = sanitizeAttributeValues(inputXml);
        System.out.println(cleaned);
        // 输出中：id="LOC-1" → id="LOC-1"（未变），但 Addr1 文本内容不受影响（因非属性）
        // 若有属性含非法字符（如 id="LOC-1@#*"），则变为 id="LOC-1"
    }
}

⚠️ 关键注意事项：

立即学习“Java免费学习笔记（深入）”；

绝不清洗文本节点内容：上述代码仅作用于 Attr 节点的 nodeValue，不会触碰 ... 中的文本（如示例中的地址字符串）。若需清洗文本内容，应显式调用 elem.getTextContent() 并单独处理，但需谨慎——避免误伤合法 HTML/XML 片段或 CDATA。
命名空间安全：启用 setNamespaceAware(true) 确保 XYZ:CompanyCd 中的 XYZ: 前缀被正确识别为命名空间，而非被正则误删。
输入 XML 必须有效：DOM 解析器会拒绝无效 XML（如未闭合标签）。若源头数据存在结构性错误，应在解析前修复或改用容错型解析器（如 JSoup 的 XML 模式），但此举违背 XML 设计原则，应溯源治理。
性能考量：对于超大 XML（GB 级），DOM 加载内存压力大，可切换至 StAX（XMLStreamReader/XMLStreamWriter）实现流式清洗，逻辑更复杂但内存友好。
安全边界：白名单正则 [^A-Za-z0-9#&',\.\-\s] 已排除 , ", ', / 等可能导致注入或结构破坏的字符；若业务需保留更多符号（如 +, _），请扩展字符集并同步测试转义行为。

总结：XML 是结构，不是字符串。用正则“修 XML”，如同用尺子修钟表——工具错位，必致故障。坚持使用标准解析器，聚焦于 Attr 节点的精准操作，才能在保障格式合规的前提下，稳健实现属性值净化目标。

Java中如何使用MyBatis进行持久化_SqlSession与Mapper接口绑定原理

如何在Java中反转一个List集合_Collections.reverse方法的基础调用

如何排查Java应用CPU占用过高_jstack与jtop环境排查工具使用

如何利用Java的ReentrantLock实现显式锁_响应中断与公平锁配置

什么是Java中的序列化与反序列化_Serializable接口的底层工作机制

相关专题

js正则表达式

php中文网为大家提供各种js正则表达式语法大全以及各种js正则表达式使用的方法，还有更多js正则表达式的相关文章、相关下载、相关课程，供大家免费下载体验。

530

2023.06.20

正则表达式不包含

正则表达式，又称规则表达式,，是一种文本模式，包括普通字符和特殊字符，是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串，通常被用来检索、替换那些符合某个模式的文本。php中文网给大家带来了有关正则表达式的相关教程以及文章，希望对大家能有所帮助。

258

2023.07.05

java正则表达式语法

java正则表达式语法是一种模式匹配工具，它非常有用，可以在处理文本和字符串时快速地查找、替换、验证和提取特定的模式和数据。本专题提供java正则表达式语法的相关文章、下载和专题，供大家免费下载体验。

766

2023.07.05

java正则表达式匹配字符串

在Java中，我们可以使用正则表达式来匹配字符串。本专题为大家带来java正则表达式匹配字符串的相关内容，帮助大家解决问题。

219

2023.08.11

正则表达式空格

正则表达式空格可以用“s”来表示，它是一个特殊的元字符，用于匹配任意空白字符，包括空格、制表符、换行符等。本专题为大家提供正则表达式相关的文章、下载、课程内容，供大家免费下载体验。

356

2023.08.31

Python爬虫获取数据的方法

Python爬虫可以通过请求库发送HTTP请求、解析库解析HTML、正则表达式提取数据，或使用数据抓取框架来获取数据。更多关于Python爬虫相关知识。详情阅读本专题下面的文章。php中文网欢迎大家前来学习。

293

2023.11.13

正则表达式空格如何表示

正则表达式空格可以用“s”来表示，它是一个特殊的元字符，用于匹配任意空白字符，包括空格、制表符、换行符等。想了解更多正则表达式空格怎么表示的内容，可以访问下面的文章。

244

2023.11.17

正则表达式中如何匹配数字

正则表达式中可以通过匹配单个数字、匹配多个数字、匹配固定长度的数字、匹配整数和小数、匹配负数和匹配科学计数法表示的数字的方法匹配数字。更多关于正则表达式的相关知识详情请看本专题下面的文章。php中文网欢迎大家前来学习。

547

2023.12.06

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

2026.03.11

热门下载

网站特效

网站源码

网站素材

前端模板