0

0

Java DOM Parser:解析多层级XML文件的策略与实践

DDD

DDD

发布时间:2025-11-26 15:34:02

|

613人浏览过

|

来源于php中文网

原创

Java DOM Parser:解析多层级XML文件的策略与实践

本教程详细阐述了如何使用java dom parser高效解析多层级xml文件。针对`getelementsbytagname`全局搜索的常见问题,提供了通过限定上下文进行局部解析的解决方案。同时,指导读者如何将解析出的分散数据进行结构化存储和关联,最终实现按需分组输出,提升数据处理的准确性和可读性。

引言:Java DOM Parser解析多层级XML的挑战

Java的DOM(Document Object Model)Parser是一种将XML文档完全加载到内存中,并将其表示为一棵节点树的解析方式。它允许开发者通过遍历这棵树来访问和操作XML文档的任何部分。对于结构清晰、层级分明的XML文件,DOM Parser提供了直观的编程接口。然而,在处理多层级XML文件时,如果不当使用,例如过度依赖全局搜索方法,可能会导致解析结果不准确或难以组织。

考虑以下员工信息的多层级XML结构:

<?xml version="1.0" encoding="UTF-8"?>
<employee>
    <employee_list>
        <employee ID="1">
            <firstname>Andrei</firstname>
            <lastname>Rus</lastname>
            <age>23</age>
            <position-skill ref="Java"/>
            <detail-ref ref="AndreiR"/>
        </employee>
        <!-- ... 更多员工 ... -->
    </employee_list>

    <position_details>
        <position ID="Java">
            <role>Junior Developer</role>
            <skill_name>Java</skill_name>
            <experience>1</experience>
        </position>
        <!-- ... 更多职位详情 ... -->
    </position_details>

    <employee_info>
        <detail ID="AndreiR">
            <username>AndreiR</username>
            <residence>Timisoara</residence>
            <yearOfBirth>1999</yearOfBirth>
            <phone>0</phone>
        </detail>
        <!-- ... 更多员工信息 ... -->
    </employee_info>
</employee>

这个XML文件包含employee_list、position_details和employee_info三个主要类别,它们都嵌套在根元素<employee>之下。如果直接使用doc.getElementsByTagName("employee")来获取员工节点,可能会意外地将根元素<employee>也包含在结果中,从而导致解析错误或不期望的输出。

精确获取特定层级元素

Document.getElementsByTagName()方法会全局搜索文档中所有指定名称的元素。这意味着它不仅会查找<employee_list>下的<employee>元素,还会查找根元素<employee>本身。为了避免这种混淆,我们应该限定搜索的上下文,即在父元素内部进行子元素的查找。

立即学习Java免费学习笔记(深入)”;

PaperFake
PaperFake

AI写论文

下载

问题分析: 在上述XML结构中,根元素是<employee>。当执行doc.getElementsByTagName("employee")时,DOM Parser会返回所有名为"employee"的节点,包括根元素<employee>以及<employee_list>下的所有<employee>子元素。由于根元素<employee>没有ID属性,也没有直接的lastname、firstname等子元素,对其进行属性或子元素访问将导致问题。

解决方案:限定搜索上下文 正确的做法是首先获取特定的类别父元素(如employee_list),然后在其内部搜索所需的子元素(如employee)。这样可以确保我们只处理目标层级的数据。

以下是针对XML中三个主要类别的修正解析方法:

import org.w3c.dom.Document;
import org.w3c.dom.Element;
import org.w3c.dom.Node;
import org.w3c.dom.NodeList;
import javax.xml.parsers.DocumentBuilder;
import javax.xml.parsers.DocumentBuilderFactory;
import java.io.File;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;
import java.util.Map;

public class XmlParserExample {

    // 定义数据模型类
    static class Employee {
        String id;
        String firstname;
        String lastname;
        int age;
        String positionSkillRef;
        String detailRef;

        // 构造器、Getter/Setter省略
        public Employee(String id, String firstname, String lastname, int age, String positionSkillRef, String detailRef) {
            this.id = id;
            this.firstname = firstname;
            this.lastname = lastname;
            this.age = age;
            this.positionSkillRef = positionSkillRef;
            this.detailRef = detailRef;
        }

        public String getId() { return id; }
        public String getFirstname() { return firstname; }
        public String getLastname() { return lastname; }
        public int getAge() { return age; }
        public String getPositionSkillRef() { return positionSkillRef; }
        public String getDetailRef() { return detailRef; }

        @Override
        public String toString() {
            return "Employee{" +
                   "id='" + id + '\'' +
                   ", firstname='" + firstname + '\'' +
                   ", lastname='" + lastname + '\'' +
                   ", age=" + age +
                   ", positionSkillRef='" + positionSkillRef + '\'' +
                   ", detailRef='" + detailRef + '\'' +
                   '}';
        }
    }

    static class PositionDetail {
        String id;
        String role;
        String skillName;
        int experience;

        // 构造器、Getter/Setter省略
        public PositionDetail(String id, String role, String skillName, int experience) {
            this.id = id;
            this.role = role;
            this.skillName = skillName;
            this.experience = experience;
        }

        public String getId() { return id; }
        public String getRole() { return role; }
        public String getSkillName() { return skillName; }
        public int getExperience() { return experience; }

        @Override
        public String toString() {
            return "PositionDetail{" +
                   "id='" + id + '\'' +
                   ", role='" + role + '\'' +
                   ", skillName='" + skillName + '\'' +
                   ", experience=" + experience +
                   '}';
        }
    }

    static class EmployeeInfo {
        String id;
        String username;
        String residence;
        int yearOfBirth;
        String phone;

        // 构造器、Getter/Setter省略
        public EmployeeInfo(String id, String username, String residence, int yearOfBirth, String phone) {
            this.id = id;
            this.username = username;
            this.residence = residence;
            this.yearOfBirth = yearOfBirth;
            this.phone = phone;
        }

        public String getId() { return id; }
        public String getUsername() { return username; }
        public String getResidence() { return residence; }
        public int getYearOfBirth() { return yearOfBirth; }
        public String getPhone() { return phone; }

        @Override
        public String toString() {
            return "EmployeeInfo{" +
                   "id='" + id + '\'' +
                   ", username='" + username + '\'' +
                   ", residence='" + residence + '\'' +
                   ", yearOfBirth=" + yearOfBirth +
                   ", phone='" + phone + '\'' +
                   '}';
        }
    }

    // 聚合类,用于整合所有相关信息
    static class FullEmployeeRecord {
        Employee employee;
        PositionDetail positionDetail;
        EmployeeInfo employeeInfo;

        public FullEmployeeRecord(Employee employee, PositionDetail positionDetail, EmployeeInfo employeeInfo) {
            this.employee = employee;
            this.positionDetail = positionDetail;
            this.employeeInfo = employeeInfo;
        }

        // Getter方法
        public Employee getEmployee() { return employee; }
        public PositionDetail getPositionDetail() { return positionDetail; }
        public EmployeeInfo getEmployeeInfo() { return employeeInfo; }

        public void printGroupedInfo() {
            System.out.println("PersonId: " + employee.getId());
            System.out.println("Firstname: " + employee.getFirstname());
            System.out.println("Lastname: " + employee.getLastname());
            System.out.println("Age: " + employee.getAge());
            if (positionDetail != null) {
                System.out.println("Role: " + positionDetail.getRole());
                System.out.println("Skill Name: " + positionDetail.getSkillName());
                System.out.println("Experience: " + positionDetail.getExperience());
            } else {
                System.out.println("Role: N/A");
                System.out.println("Skill Name: N/A");
                System.out.println("Experience: N/A");
            }
            if (employeeInfo != null) {
                System.out.println("Username: " + employeeInfo.getUsername());
                System.out.println("Residence: " + employeeInfo.getResidence());
                System.out.println("Year Of Birth: " + employeeInfo.getYearOfBirth());
                System.out.println("Phone: " + employeeInfo.getPhone());
            } else {
                System.out.println("Username: N/A");
                System.out.println("Residence: N/A");
                System.out.println("Year Of Birth: N/A");
                System.out.println("Phone: N/A");
            }
            System.out.println("--------------------------------------------------------------------------");
        }
    }

    public static void main(String[] args) {
        try {
            File xmlDoc = new File("employees.xml"); // 确保XML文件存在于项目根目录或指定路径
            DocumentBuilderFactory dbFact = DocumentBuilderFactory.newInstance();
            DocumentBuilder dBuild = dbFact.newDocumentBuilder();
            Document doc = dBuild.parse(xmlDoc);

            // 规范化文档,去除空白文本节点
            doc.getDocumentElement().normalize();

            System.out.println("Root element: " + doc.getDocumentElement().getNodeName());
            System.out.println("-----------------------------------------------------------------------------");

            // 1. 解析 employee_list
            List<Employee> employees = new ArrayList<>();
            NodeList employeeListNodes = doc.getElementsByTagName("employee_list");
            if (employeeListNodes.getLength() > 0) {
                Element employeeListElement = (Element) employeeListNodes.item(0);
                NodeList employeeNodes = employeeListElement.getElementsByTagName("employee");
                for (int i = 0; i < employeeNodes.getLength(); i++) {
                    Node node = employeeNodes.item(i);
                    if (node.getNodeType() == Node.ELEMENT_NODE) {
                        Element eElement = (Element) node;
                        String id = eElement.getAttribute("ID");
                        String firstname = getTagValue("firstname", eElement);
                        String lastname = getTagValue("lastname", eElement);
                        int age = Integer.parseInt(getTagValue("age", eElement));
                        String positionSkillRef = ((Element)eElement.getElementsByTagName("position-skill").item(0)).getAttribute("ref");
                        String detailRef = ((Element)eElement.getElementsByTagName("detail-ref").item(0)).getAttribute("ref");

                        employees.add(new Employee(id, firstname, lastname, age, positionSkillRef, detailRef));
                    }
                }
            }
            System.out.println("Parsed " + employees.size() + " employees.");

            // 2. 解析 position_details 并存储到Map以便快速查找
            Map<String, PositionDetail> positionDetailsMap = new HashMap<>();
            NodeList positionDetailsNodes = doc.getElementsByTagName("position_details");
            if (positionDetailsNodes.getLength() > 0) {
                Element positionDetailsElement = (Element) positionDetailsNodes.item(0);
                NodeList positionNodes = positionDetailsElement.getElementsByTagName("position");
                for (int i = 0; i < positionNodes.getLength(); i++) {
                    Node node = positionNodes.item(i);
                    if (node.getNodeType() == Node.ELEMENT_NODE) {
                        Element eElement = (Element) node;
                        String id = eElement.getAttribute("ID");
                        String role = getTagValue("role", eElement);
                        String skillName = getTagValue("skill_name", eElement);
                        int experience = Integer.parseInt(getTagValue("experience", eElement));

                        positionDetailsMap.put(id, new PositionDetail(id, role, skillName, experience));
                    }
                }
            }
            System.out.println("Parsed " + positionDetailsMap.size() + " position details.");

            // 3. 解析 employee_info 并存储到Map以便快速查找
            Map<String, EmployeeInfo> employeeInfoMap = new HashMap<>();
            NodeList employeeInfoNodes = doc.getElementsByTagName("employee_info");
            if (employeeInfoNodes.getLength() > 0) {
                Element employeeInfoElement = (Element) employeeInfoNodes.item(0);
                NodeList detailNodes = employeeInfoElement.getElementsByTagName("detail");
                for (int i = 0; i < detailNodes.getLength(); i++) {
                    Node node = detailNodes.item(i);
                    if (node.getNodeType() == Node.ELEMENT_NODE) {
                        Element eElement = (Element) node;
                        String id = eElement.getAttribute("ID");
                        String username = getTagValue("username", eElement);
                        String residence = getTagValue("residence", eElement);
                        int yearOfBirth = Integer.parseInt(getTagValue("yearOfBirth", eElement));
                        String phone = getTagValue("phone", eElement);

                        employeeInfoMap.put(id, new EmployeeInfo(id, username, residence, yearOfBirth, phone));
                    }
                }
            }
            System.out.println("Parsed " + employeeInfoMap.size() + " employee info records.");

            System.out.println("\n=============================================================================================");
            System.out.println("Grouped Employee Information:");
            System.out.println("=============================================================================================");

            // 4. 关联数据并输出
            for (Employee emp : employees) {
                PositionDetail posDetail = positionDetailsMap.get(emp.getPositionSkillRef());
                EmployeeInfo empInfo = employeeInfoMap.get(emp.getDetailRef());

                FullEmployeeRecord record = new FullEmployeeRecord(emp, posDetail, empInfo);
                record.printGroupedInfo();
            }

        } catch (Exception e) {
            e.printStackTrace();
        }
    }

    // 辅助方法,用于安全获取元素文本内容
    private static String getTagValue(String tag, Element element) {
        NodeList nodeList = element.getElementsByTagName(tag);
        if (nodeList != null && nodeList.getLength() > 0) {
            Node node = nodeList.item(0);
            if (node != null) {
                return node.getTextContent();
            }
        }
        return ""; // 返回空字符串而不是null,避免NullPointerException
    }
}

代码说明:

  1. 限定搜索范围: 对于employee_list、position_details和employee_info,我们首先通过doc.getElementsByTagName("category_name")获取到它们的父节点,然后在其父节点元素上调用getElementsByTagName("child_tag_name")来获取具体的子元素。例如:
    NodeList employeeListNodes = doc.getElementsByTagName("employee_list");
    Element employeeListElement = (Element) employeeListNodes.item(0);
    NodeList employeeNodes = employeeListElement.getElementsByTagName("employee"); // 在 employee_list 内部查找 employee
  2. 辅助方法getTagValue: 这个方法封装了获取元素文本内容的逻辑,并增加了空值检查,使得代码更健壮。

结构化数据存储与关联

原始的代码直接在解析过程中打印输出,导致数据分散且难以进行复杂的关联或后续处理。为了实现更灵活、更结构化的输出,我们应该将解析出的数据存储在自定义的Java对象中。

痛点:分散输出与数据关联 XML文件中的数据通常是相互关联的。例如,一个<employee>通过position-skill和detail-ref属性引用了<position>和<detail>信息。如果只是独立地解析和打印,就无法将这些相关信息整合到一起。

解决方案:定义数据模型(POJO) 为XML中的每个主要实体(如Employee, PositionDetail, EmployeeInfo)创建对应的Java类(Plain Old Java Object, POJO)。这些类将包含与XML元素对应的字段、构造器和Getter/Setter方法。

解决方案:构建关联数据模型 为了实现最终所需的按人分组输出,我们可以创建一个聚合类,例如FullEmployeeRecord,它包含一个Employee对象、一个PositionDetail对象和一个EmployeeInfo对象。在解析完所有独立类别的数据后,我们可以通过它们之间的引用(例如employee的position-skill ref和detail-ref属性)来构建这些聚合对象。

在上述示例代码中:

  • Employee、PositionDetail、EmployeeInfo 分别代表了XML中对应的数据结构。
  • FullEmployeeRecord 类用于将一个员工的所有相关信息(基本信息、职位详情、联系信息)组合在一起。
  • 在解析过程中,我们使用List和Map来存储不同类别的数据。Map的键是XML中元素的ID属性,值是对应的POJO对象,这使得通过引用ID进行快速查找成为可能。
  • 最后,我们遍历Employee列表,根据其positionSkillRef和detailRef属性从positionDetailsMap和employeeInfoMap中查找并关联对应的PositionDetail和EmployeeInfo对象,构建FullEmployeeRecord实例,并按需打印。

注意事项与最佳实践

  1. 异常处理: XML解析过程中可能出现多种异常,如ParserConfigurationException (解析器配置错误), SAXException (XML解析错误), IOException (文件读取错误)。务必使用try-catch块来捕获并处理这些异常,确保程序的健壮性。
  2. 空值检查: 在访问NodeList.item(index)或Element.getElementsByTagName(tag).item(0)时,应始终检查返回的Node或Element是否为null,尤其是在XML结构可能不完整或可选元素存在的情况下。同样,getTextContent()也可能返回null。辅助方法getTagValue就是为了解决这个问题。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
c语言中null和NULL的区别
c语言中null和NULL的区别

c语言中null和NULL的区别是:null是C语言中的一个宏定义,通常用来表示一个空指针,可以用于初始化指针变量,或者在条件语句中判断指针是否为空;NULL是C语言中的一个预定义常量,通常用来表示一个空值,用于表示一个空的指针、空的指针数组或者空的结构体指针。

254

2023.09.22

java中null的用法
java中null的用法

在Java中,null表示一个引用类型的变量不指向任何对象。可以将null赋值给任何引用类型的变量,包括类、接口、数组、字符串等。想了解更多null的相关内容,可以阅读本专题下面的文章。

1089

2024.03.01

pdf怎么转换成xml格式
pdf怎么转换成xml格式

将 pdf 转换为 xml 的方法:1. 使用在线转换器;2. 使用桌面软件(如 adobe acrobat、itext);3. 使用命令行工具(如 pdftoxml)。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

1949

2024.04.01

xml怎么变成word
xml怎么变成word

步骤:1. 导入 xml 文件;2. 选择 xml 结构;3. 映射 xml 元素到 word 元素;4. 生成 word 文档。提示:确保 xml 文件结构良好,并预览 word 文档以验证转换是否成功。想了解更多xml的相关内容,可以阅读本专题下面的文章。

2119

2024.08.01

xml是什么格式的文件
xml是什么格式的文件

xml是一种纯文本格式的文件。xml指的是可扩展标记语言,标准通用标记语言的子集,是一种用于标记电子文件使其具有结构性的标记语言。想了解更多相关的内容,可阅读本专题下面的相关文章。

1171

2024.11.28

treenode的用法
treenode的用法

​在计算机编程领域,TreeNode是一种常见的数据结构,通常用于构建树形结构。在不同的编程语言中,TreeNode可能有不同的实现方式和用法,通常用于表示树的节点信息。更多关于treenode相关问题详情请看本专题下面的文章。php中文网欢迎大家前来学习。

550

2023.12.01

C++ 高效算法与数据结构
C++ 高效算法与数据结构

本专题讲解 C++ 中常用算法与数据结构的实现与优化,涵盖排序算法(快速排序、归并排序)、查找算法、图算法、动态规划、贪心算法等,并结合实际案例分析如何选择最优算法来提高程序效率。通过深入理解数据结构(链表、树、堆、哈希表等),帮助开发者提升 在复杂应用中的算法设计与性能优化能力。

30

2025.12.22

深入理解算法:高效算法与数据结构专题
深入理解算法:高效算法与数据结构专题

本专题专注于算法与数据结构的核心概念,适合想深入理解并提升编程能力的开发者。专题内容包括常见数据结构的实现与应用,如数组、链表、栈、队列、哈希表、树、图等;以及高效的排序算法、搜索算法、动态规划等经典算法。通过详细的讲解与复杂度分析,帮助开发者不仅能熟练运用这些基础知识,还能在实际编程中优化性能,提高代码的执行效率。本专题适合准备面试的开发者,也适合希望提高算法思维的编程爱好者。

45

2026.01.06

TypeScript类型系统进阶与大型前端项目实践
TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开,深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析,帮助开发者构建类型安全、结构清晰、易维护的前端工程体系,提高团队协作效率与代码质量。

26

2026.03.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Kotlin 教程
Kotlin 教程

共23课时 | 4.4万人学习

C# 教程
C# 教程

共94课时 | 11.3万人学习

Java 教程
Java 教程

共578课时 | 81.8万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号