0

0

如何将CSV文件映射成指定的XML格式?

星降

星降

发布时间:2026-01-14 23:22:02

|

783人浏览过

|

来源于php中文网

原创

最可控的csv转xml方式是用csv.dictreader逐行读取并手动构建elementtree树结构,需预先定义层级逻辑、处理字段映射与特殊字符,避免依赖xslt或自动工具。

如何将csv文件映射成指定的xml格式?

用 Python 的 csv + xml.etree.ElementTree 手动构建 XML

这是最可控、最常被需要的方式,尤其当 CSV 字段和 XML 结构不一一对应,或需条件生成节点、重命名字段、嵌套层级时。别指望 csv.DictReader 读出来直接塞进 ElementTree 就能成形——XML 的树状结构和 CSV 的扁平表结构天然不匹配。

关键点:

  • 先定义好目标 XML 的层级逻辑(比如哪列是 <person></person>,哪几列属于它的子节点 <name></name> / <contact></contact>
  • csv.DictReader 逐行读取,每行生成一个顶层元素(如 <record></record>),再按需创建子元素并设 .text.attrib
  • 注意特殊字符:XML 不允许直接写 、<code>& 等,ElementTree 会自动转义,但手动拼字符串则必须用 xml.sax.saxutils.escape()
import csv
import xml.etree.ElementTree as ET

root = ET.Element("data")
with open("input.csv", encoding="utf-8") as f:
    reader = csv.DictReader(f)
    for row in reader:
        record = ET.SubElement(root, "record")
        ET.SubElement(record, "id").text = row["id"]
        name = ET.SubElement(record, "name")
        name.text = row["full_name"]
        contact = ET.SubElement(record, "contact")
        ET.SubElement(contact, "email").text = row["email"]
        ET.SubElement(contact, "phone").text = row["phone"]

tree = ET.ElementTree(root)
tree.write("output.xml", encoding="utf-8", xml_declaration=True)

遇到 CSV 头含空格或特殊符号时怎么处理字段映射

csv.DictReader 默认把第一行当字段名,如果原始 CSV 是 "User ID","Full Name","E-mail",那 row["User ID"] 会报 KeyError——因为键名带空格,但你代码里写的是 row["id"]

解决方法只有两个:

  • fieldnames 参数显式指定干净的字段名:csv.DictReader(f, fieldnames=["id", "name", "email"], skipinitialspace=True),同时加 skipinitialspace=True 忽略字段值前导空格
  • 或在读取后做一次键名映射:mapped = {"id": row["User ID"], "name": row["Full Name"], "email": row["E-mail"]}

别依赖 Excel 自动保存 CSV 后“看起来整齐”——它可能悄悄加了 BOM、用了非标准换行符,或把数字当文本导出导致前后空格,这些都会让 row.get("email") 返回 None 或带空格字符串。

Sora
Sora

Sora是OpenAI发布的一种文生视频AI大模型,可以根据文本指令创建现实和富有想象力的场景。

下载

用 XSLT + CSV 转 XML?不现实

有人想走捷径:先把 CSV 转成简易 XML(如用 csvtoxml 工具生成扁平 <row><col1>...</col1></row>),再用 XSLT 变换。这条路在小文件上看似可行,但实际踩坑密集:

  • XSLT 本身不原生支持 CSV 解析,所谓“CSV 转 XML”工具往往只是按逗号硬切,遇带逗号的字段(如 "Smith, John","123 Main St")就崩
  • XSLT 2.0+ 虽有 tokenize(),但处理引号包裹、换行嵌入等 RFC 4180 规范几乎不可能
  • 调试困难:XSLT 错误信息极不友好,AttributeError: 'NoneType' object has no attribute 'text' 这类 Python 错误反而更容易定位

真要用 XSLT,前提是 CSV 已被严格清洗为无引号、无换行、无逗号的纯分隔格式,且字段顺序固定——这种数据现实中极少。

性能瓶颈通常不在解析,而在 XML 构建方式

处理 10 万行 CSV 时,慢的从来不是 csv.reader,而是反复调用 ET.SubElement() 创建大量小对象。如果你的目标 XML 允许,可考虑:

  • 用字符串模板批量拼接(需手动处理转义):f"<id>{escape(row['id'])}</id>"
  • 对超大文件,改用 xml.saxlxmliterparse 流式写入,避免把整个树载入内存
  • 确认是否真需要完整 XML 文档:有时下游只要符合某 DTD 片段,用 print() 直接输出格式化字符串更轻量

最容易被忽略的一点:中文 Windows 下默认编码gbk,但 CSV 文件可能是 utf-8-sig(带 BOM)。不显式指定 encoding="utf-8-sig"csv.DictReader 会把 BOM 当作第一个字段名,导致所有 row.get("id") 都返回 None

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
python中print函数的用法
python中print函数的用法

python中print函数的语法是“print(value1, value2, ..., sep=' ', end=' ', file=sys.stdout, flush=False)”。本专题为大家提供print相关的文章、下载、课程内容,供大家免费下载体验。

192

2023.09.27

python print用法与作用
python print用法与作用

本专题整合了python print的用法、作用、函数功能相关内容,阅读专题下面的文章了解更多详细教程。

17

2026.02.03

pdf怎么转换成xml格式
pdf怎么转换成xml格式

将 pdf 转换为 xml 的方法:1. 使用在线转换器;2. 使用桌面软件(如 adobe acrobat、itext);3. 使用命令行工具(如 pdftoxml)。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

1938

2024.04.01

xml怎么变成word
xml怎么变成word

步骤:1. 导入 xml 文件;2. 选择 xml 结构;3. 映射 xml 元素到 word 元素;4. 生成 word 文档。提示:确保 xml 文件结构良好,并预览 word 文档以验证转换是否成功。想了解更多xml的相关内容,可以阅读本专题下面的文章。

2116

2024.08.01

xml是什么格式的文件
xml是什么格式的文件

xml是一种纯文本格式的文件。xml指的是可扩展标记语言,标准通用标记语言的子集,是一种用于标记电子文件使其具有结构性的标记语言。想了解更多相关的内容,可阅读本专题下面的相关文章。

1142

2024.11.28

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

658

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

219

2023.09.04

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1560

2023.10.24

Golang 测试体系与代码质量保障:工程级可靠性建设
Golang 测试体系与代码质量保障:工程级可靠性建设

Go语言测试体系与代码质量保障聚焦于构建工程级可靠性系统。本专题深入解析Go的测试工具链(如go test)、单元测试、集成测试及端到端测试实践,结合代码覆盖率分析、静态代码扫描(如go vet)和动态分析工具,建立全链路质量监控机制。通过自动化测试框架、持续集成(CI)流水线配置及代码审查规范,实现测试用例管理、缺陷追踪与质量门禁控制,确保代码健壮性与可维护性,为高可靠性工程系统提供质量保障。

48

2026.02.28

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Excel 教程
Excel 教程

共162课时 | 19.7万人学习

成为PHP架构师-自制PHP框架
成为PHP架构师-自制PHP框架

共28课时 | 2.6万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号