0

0

多个XML文件合并及数据映射

畫卷琴夢

畫卷琴夢

发布时间:2026-01-26 02:31:19

|

419人浏览过

|

来源于php中文网

原创

用 xml.etree.ElementTree 合并 XML 文件应逐个追加子元素而非拼接字符串,需用 deepcopy 避免引用问题,显式处理命名空间,并用 ET.indent 美化输出;大文件须用 iterparse 流式处理防 OOM。

多个xml文件合并及数据映射

用 Python 的 xml.etree.ElementTree 合并多个 XML 文件

直接用标准库最稳妥,不用额外装包,也避免 lxml 在某些环境(如 Alpine 容器、旧 CentOS)的编译问题。关键不是“拼接字符串”,而是把源文件的根子元素逐个追加到目标树中。

常见错误是调用 tree.getroot().append(child_root) 后发现子元素的命名空间丢失或属性错乱——这是因为 ElementTree 默认不保留原始命名空间前缀,且 append() 不自动处理父级 nsmap

  • 先用 ET.parse(filename) 读取每个文件,拿到 root
  • 对每个 root,用 copy.deepcopy(root) 避免后续修改影响原树(尤其当多个文件有同名节点需重命名时)
  • 若源文件含命名空间(如 xmlns="http://example.com/ns"),需在目标根节点初始化时显式传入 nsmap,否则子节点的 xmlns 属性会被忽略
  • 合并后调用 ET.indent(tree, space=" ", level=0)(Python 3.9+)美化输出;旧版本可用第三方 xml.dom.minidom 回写
import xml.etree.ElementTree as ET
from copy import deepcopy

def merge_xml_files(file_list, output_path): if not file_list: return

以第一个文件为基准构建目标树

base_tree = ET.parse(file_list[0])
base_root = base_tree.getroot()
# 复制其余文件的根下所有子元素(跳过根本身)
for fpath in file_list[1:]:
    tree = ET.parse(fpath)
    root = tree.getroot()
    for child in root:
        base_root.append(deepcopy(child))
# 写出
base_tree.write(output_path, encoding="utf-8", xml_declaration=True)

XML 到字典/JSON 的映射:处理重复标签与属性冲突

很多工具(比如 xmltodict)默认把同名子节点转成 list,但若某节点只出现一次,它就变成 dict——这种不一致会让后续代码频繁判空或用 isinstance(..., list),容易漏 case。

更麻烦的是属性和文本内容共存:29.99 映射成什么结构?不同库策略不同,xmltodict 默认塞进 @currency#text,而 dictor 可能扁平化成 price_currencyprice_text

  • 统一用 xmltodict.parse(xml_str, force_list=("item", "entry")) 强制指定哪些标签必须为 list,哪怕只出现一次
  • process_namespaces=True 保留命名空间信息,否则 {http://...}title 会变成难以匹配的键名
  • 若需自定义映射逻辑(例如把所有 @unit 属性转为小写后缀),别依赖库的自动转换,改用 ElementTree + 手写遍历,在 iter() 过程中按需构造 dict

用 XSLT 实现带条件的数据映射(比如字段重命名、值转换)

当映射规则复杂(如 “把 active 转成 1,其他值转 0”),硬编码解析易出错且难维护。xslt 是专为此设计的,且主流语言都支持(Python 用 lxml,Java 用 javax.xml.transform)。

空心菜的米库
空心菜的米库

1,对界面进行了美化2,对文件里边相同代码进行了综合3,增加了点击次数统计,并对3次点击以上的域名增加热门字样4,对本站出售和个人出售进行了划分5,增加钻石状态说明6,增加了完整的后台界面7,增加对资料修改功能8,增加回收站,可以任意删除域名、恢复删除域名和永久删除数据9,还有其他的细节大家自己看~10.增加域名证书显示11.域名到期时间采用日历控件形式12.后台登陆添加了验证码功能13.还有很多

下载

注意:XSLT 1.0(最广泛兼容)不支持正则,字符串处理能力弱;XSLT 2.0+(需 saxonlxml 启用 EXSLT)才有 replace()tokenize()。生产环境优先选 1.0,除非明确需要高级文本函数。

  • XSLT 文件里用 实现标签重命名
  • 做条件映射,比在 Python 里写一堆 if/elif 更清晰可测
  • 执行时传入外部参数(如 base_url)用 ,避免把路径硬编码进 XSLT

大 XML 文件合并时的内存与性能陷阱

单个 500MB 的 XML 文件用 ElementTree.parse() 会直接 OOM;即使拆成多个 50MB 文件,全 load 进内存再合并也不现实。这时候必须流式处理。

iterparse() 是唯一靠谱选择,但它不保证事件顺序,且对嵌套层级深的结构容易漏节点——比如你监听 start 事件来捕获 ,但没等收到对应 end 就提前清理了上下文,会导致数据截断。

  • iterparse(filename, events=("start", "end")),只在 end 事件时处理完整节点,避免中间状态干扰
  • 对每个 end 事件,检查 elem.tag == "record"elem.getparent() is not None(防顶层节点误判)
  • 处理完一个 record 后立即调用 elem.clear() 并删除其所有子节点引用,否则内存不会释放
  • 不要试图用 iterparse 构建完整新树——只提取你需要的字段,转成 CSV 行或插入数据库,绕过“合并 XML”这个动作本身

真正难的不是语法,是搞清你到底要“合并 XML”还是“合并 XML 里的数据”。前者是格式操作,后者才是实际需求。多数时候,后者更合理,也更容易避开各种解析器的边界 case。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
python开发工具
python开发工具

php中文网为大家提供各种python开发工具,好的开发工具,可帮助开发者攻克编程学习中的基础障碍,理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容,供大家免费下载使用。

778

2023.06.15

python打包成可执行文件
python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章,大家可以免费的下载体验。

684

2023.07.20

python能做什么
python能做什么

python能做的有:可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

768

2023.07.25

format在python中的用法
format在python中的用法

Python中的format是一种字符串格式化方法,用于将变量或值插入到字符串中的占位符位置。通过format方法,我们可以动态地构建字符串,使其包含不同值。php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

739

2023.07.31

python教程
python教程

Python已成为一门网红语言,即使是在非编程开发者当中,也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章,大家可以免费体验学习。

1445

2023.08.03

python环境变量的配置
python环境变量的配置

Python是一种流行的编程语言,被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后,我们需要配置环境变量,以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

571

2023.08.04

python eval
python eval

eval函数是Python中一个非常强大的函数,它可以将字符串作为Python代码进行执行,实现动态编程的效果。然而,由于其潜在的安全风险和性能问题,需要谨慎使用。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

579

2023.08.04

scratch和python区别
scratch和python区别

scratch和python的区别:1、scratch是一种专为初学者设计的图形化编程语言,python是一种文本编程语言;2、scratch使用的是基于积木的编程语法,python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容,供大家免费下载体验。

751

2023.08.11

c++ 根号
c++ 根号

本专题整合了c++根号相关教程,阅读专题下面的文章了解更多详细内容。

70

2026.01.23

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 21.1万人学习

Django 教程
Django 教程

共28课时 | 3.5万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.3万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号