Java怎么把一个大XML文件按记录分割

星降

发布时间：2025-12-22 13:13:24

744人浏览过

来源于php中文网

原创

java处理大xml文件应使用stax或sax流式解析，避免dom导致oom；stax通过xmleventreader逐事件读取、深度计数识别record边界，并用xmleventwriter写入独立文件；sax则用contenthandler配合字符缓存与深度管理实现轻量拆分。

java怎么把一个大xml文件按记录分割

Java处理大XML文件时，不能直接用DOM加载整个文档（内存会爆），得用SAX或StAX边读边拆。核心思路是：监听开始标签，识别每条记录的根元素（比如或），累计内容直到对应结束标签，然后写入独立文件。

用StAX按分割最实用

StAX（javax.xml.stream）是拉模式解析器，代码清晰、内存可控、支持写入。假设原始XML长这样：

Alice30
Bob25

目标是把每个存成 record_1.xml、record_2.xml。

Tana

“节点式”AI智能笔记工具，支持超级标签。

下载

用XMLInputFactory创建XMLEventReader，逐个读事件
遇到START_ELEMENT且localName是"record"时，开始捕获；记下id属性值用于命名
用XMLEventWriter把从START_ELEMENT到匹配的END_ELEMENT之间所有事件写入新文件
注意：要递归处理嵌套结构，所以推荐用“深度计数”——遇到START_ELEMENT加1，END_ELEMENT减1，归零即结束

用SAX做轻量级流式拆分

如果只关心简单扁平结构（无深层嵌套），SAX更省内存。写一个ContentHandler，重写startElement和endElement方法：

立即学习“Java免费学习笔记（深入）”；

在startElement中判断是否为记录起始标签（如qName.equals("record")），如果是，初始化StringBuilder并提取关键属性（如id）
在characters中追加文本内容（注意trim和忽略空白）
在endElement中判断是否为该记录结束标签，是则把缓存内容写入文件，并清空缓存
缺点：不自动处理嵌套标签的文本拼接，需手动维护栈或深度变量

避免常见坑

别用StringBuffer拼XML片段——容易破坏编码和转义。应使用Transformer或XMLEventWriter输出标准格式
记录名不一定是，可能是、、，先用文本工具查清实际根元素名
大文件常带XML声明和DOCTYPE，拆分后的新文件建议补上，否则某些工具打不开
单文件写入频繁影响性能？可批量缓存N条再落盘，或用BufferedOutputStream包装FileOutputStream

基本上就这些。选StAX更稳，逻辑清楚，容错强；真受限于内存或只是简单切分，SAX也够用。关键是别碰DOM，几GB的XML一加载就OOM。

Java Web web.xml mime-mapping 配置服务器支持自定义文件类型

XML文件上传漏洞挖掘文件上传点如何测试XXE

Jackson库处理XML教程 Java使用Jackson实现XML绑定

Java JAXB Marshaller.JAXB_FORMATTED_OUTPUT 格式化XML输出

XML文件如何压缩成Zip Java实现XML打包压缩下载

相关标签:

java 编码工具栈 stream 一加 red xml 递归栈事件 dom transformer

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Android的strings.xml怎么实现多语言适配下一篇：XML注释怎么写 XML文件注释语法

作者最新文章

节礼日（Boxing Day）的真正含义：不是拳击，而是慈善

2026-03-01 10:05

XQuery是什么如何用它来从XML数据中提取信息

2026-03-01 10:31

C# PerfView使用入门方法 C#如何使用PerfView进行深度性能分析

2026-03-01 10:47

Excel怎么快速去重 Excel表格删除重复数据方法【技巧】

2026-03-01 10:49

国家政务服务平台发票查验入口全国增值税发票查询官方入口

2026-03-01 11:23

考研帮怎么查看历年真题考研帮寻找往年真题资源教程【方法】

2026-03-01 11:25

刚关闭的网页怎么重新打开撤销关闭快捷键【实用技巧】

2026-03-01 11:44

全国增值税发票查验平台登录入口发票查询系统官方网站

2026-03-01 12:27

Excel怎么合并多个工作簿 Excel批量合并表格方法【工具】

2026-03-01 13:18

Win11新版画图AI绘图功能怎么用？Cocreator开启与详细使用指南

2026-03-01 13:20

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

pdf怎么转换成xml格式

将 pdf 转换为 xml 的方法：1. 使用在线转换器；2. 使用桌面软件（如 adobe acrobat、itext）；3. 使用命令行工具（如 pdftoxml）。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

1939

2024.04.01

xml怎么变成word

步骤：1. 导入 xml 文件；2. 选择 xml 结构；3. 映射 xml 元素到 word 元素；4. 生成 word 文档。提示：确保 xml 文件结构良好，并预览 word 文档以验证转换是否成功。想了解更多xml的相关内容，可以阅读本专题下面的文章。

2116

2024.08.01

xml是什么格式的文件

xml是一种纯文本格式的文件。xml指的是可扩展标记语言，标准通用标记语言的子集，是一种用于标记电子文件使其具有结构性的标记语言。想了解更多相关的内容，可阅读本专题下面的相关文章。

1146

2024.11.28

堆和栈的区别

堆和栈的区别：1、内存分配方式不同；2、大小不同；3、数据访问方式不同；4、数据的生命周期。本专题为大家提供堆和栈的区别的相关的文章、下载、课程内容，供大家免费下载体验。

432

2023.07.18

堆和栈区别

堆(Heap)和栈(Stack)是计算机中两种常见的内存分配机制。它们在内存管理的方式、分配方式以及使用场景上有很大的区别。本文将详细介绍堆和栈的特点、区别以及各自的使用场景。php中文网给大家带来了相关的教程以及文章欢迎大家前来学习阅读。

600

2023.08.10

DOM是什么意思

dom的英文全称是documentobjectmodel，表示文件对象模型，是w3c组织推荐的处理可扩展置标语言的标准编程接口；dom是html文档的内存中对象表示，它提供了使用javascript与网页交互的方式。想了解更多的相关内容，可以阅读本专题下面的文章。

4138

2024.08.14

Swift iOS架构设计与MVVM模式实战

本专题聚焦 Swift 在 iOS 应用架构设计中的实践，系统讲解 MVVM 模式的核心思想、数据绑定机制、模块拆分策略以及组件化开发方法。内容涵盖网络层封装、状态管理、依赖注入与性能优化技巧。通过完整项目案例，帮助开发者构建结构清晰、可维护性强的 iOS 应用架构体系。

2026.03.03

C++高性能网络编程与Reactor模型实践

本专题围绕 C++ 在高性能网络服务开发中的应用展开，深入讲解 Socket 编程、多路复用机制、Reactor 模型设计原理以及线程池协作策略。内容涵盖 epoll 实现机制、内存管理优化、连接管理策略与高并发场景下的性能调优方法。通过构建高并发网络服务器实战案例，帮助开发者掌握 C++ 在底层系统与网络通信领域的核心技术。

2026.03.03

Golang 测试体系与代码质量保障：工程级可靠性建设

Go语言测试体系与代码质量保障聚焦于构建工程级可靠性系统。本专题深入解析Go的测试工具链（如go test）、单元测试、集成测试及端到端测试实践，结合代码覆盖率分析、静态代码扫描（如go vet）和动态分析工具，建立全链路质量监控机制。通过自动化测试框架、持续集成（CI）流水线配置及代码审查规范，实现测试用例管理、缺陷追踪与质量门禁控制，确保代码健壮性与可维护性，为高可靠性工程系统提供质量保障。

2026.02.28

热门下载

网站特效

网站源码

网站素材

前端模板