0

0

如何用Python Pandas处理XML并映射到DataFrame?

月夜之吻

月夜之吻

发布时间:2026-03-02 11:00:23

|

463人浏览过

|

来源于php中文网

原创

pandas.read_xml()仅支持极简xml结构,遇嵌套、命名空间等必失败;应改用xml.etree.elementtree或lxml手动解析后构建dataframe。

如何用python pandas处理xml并映射到dataframe?

直接用 pandas.read_xml() 会失败,除非 XML 结构极简单

新版 Pandas(1.3+)确实加了 read_xml(),但它对 XML 的容忍度很低:只支持扁平、无嵌套、无命名空间、无重复同名子节点的结构。一旦遇到 <person><name>Alice</name><address><city>Beijing</city></address></person> 这类嵌套,它要么报错 ValueError: Unstacked DataFrame is not supported,要么把整个 <address></address> 当成字符串塞进一列,丢失内部结构。

真正可靠的做法是绕过 read_xml(),用标准库 xml.etree.ElementTree 或第三方 lxml 手动解析,再按需构造字典列表,最后喂给 pd.DataFrame()

xml.etree.ElementTree 提取嵌套字段并展平

这是最轻量、无需额外安装的方案。关键在递归遍历或用 .findall() 定位重复节点,再用 .text.get() 取值。注意空值、类型转换和重复标签处理。

  • root.findall('record') 获取所有顶层记录节点(别用 findall('.//record'),性能差且易误匹配)
  • 对每个 record,用 elem.find('name') 取子元素,.text 获取文本,.get('id') 取属性
  • 嵌套字段如 <address><city>Shanghai</city></address>,需两级调用:record.find('address').find('city').text if record.find('address') is not None else None
  • 避免直接用 record.findtext('name') —— 它返回 None 时无法区分“没找到”和“值为空字符串”
import xml.etree.ElementTree as ET
import pandas as pd

xml_str = """<data>
  <record id="1">
    <name>Alice</name>
    <age>30</age>
    <address><city>Beijing</city><zip>100000</zip></address>
  </record>
  <record id="2">
    <name>Bob</name>
    <age>25</age>
    <address><city>Shanghai</city><zip>200000</zip></address>
  </record>
</data>"""

root = ET.fromstring(xml_str)
records = []

for record in root.findall('record'):
    city_elem = record.find('address').find('city') if record.find('address') is not None else None
    zip_elem = record.find('address').find('zip') if record.find('address') is not None else None
    
    records.append({
        'id': record.get('id'),
        'name': record.find('name').text if record.find('name') is not None else None,
        'age': int(record.find('age').text) if record.find('age') is not None else None,
        'city': city_elem.text if city_elem is not None else None,
        'zip': zip_elem.text if zip_elem is not None else None
    })

df = pd.DataFrame(records)

lxml 和 XPath 处理带命名空间或复杂路径的 XML

当 XML 含命名空间(如 xmlns="http://example.com/ns")或需要模糊匹配(如 //item[@type='user']),xml.etree.ElementTree 的 XPath 支持太弱,必须换 lxml。它支持完整 XPath 1.0,且性能更好。

Penpot
Penpot

Penpot是一个开源的设计和原型制作平台,旨在成为一个全功能的UI/UX设计工具。

下载

立即学习Python免费学习笔记(深入)”;

  • 注册命名空间:用 namespaces={'ns': 'http://example.com/ns'},然后在 XPath 中写 ns:record
  • tree.xpath('//record') 替代 findall(),支持更灵活的条件筛选
  • tree.xpath('string(./name)') 可安全取文本,自动处理缺失节点(返回空字符串)
  • 注意 lxml 默认不校验 XML,若数据不可信,加 parser = etree.XMLParser(recover=True)
from lxml import etree
import pandas as pd

xml_str = '''<?xml version="1.0"?>
<root xmlns="http://example.com/ns">
  <record><name>Charlie</name></record>
</root>'''

parser = etree.XMLParser()
tree = etree.fromstring(xml_str, parser)
namespaces = {'ns': 'http://example.com/ns'}

records = []
for record in tree.xpath('//ns:record', namespaces=namespaces):
    records.append({
        'name': record.xpath('string(ns:name)', namespaces=namespaces).strip() or None
    })

df = pd.DataFrame(records)

性能与内存:大文件别一次性加载到内存

XML 文件超过 10MB 时,ET.fromstring()etree.parse() 会吃光内存。此时必须用流式解析(iterparse()lxml.etree.iterparse()),边读边建行,及时清理已处理节点。

  • iterparse() 返回 (event, elem) 元组,监听 'start''end' 事件
  • 遇到 'end'elem.tag == 'record' 时,提取数据并调用 elem.clear() 释放内存
  • 不要在循环里反复调用 root.findall() —— 它每次都会重新遍历整棵树
  • 如果只是提取固定字段,用 SAX 解析器(xml.sax)更省内存,但编码复杂度上升

嵌套层级深、含命名空间、字段类型不一致、文件体积大——这些不是边缘情况,而是真实 XML 数据的常态。手动解析看似多写几行,实则省去调试 read_xml() 报错的时间,也避开了隐式类型转换带来的陷阱。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
Python 时间序列分析与预测
Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧,涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估,以及基于实际业务场景的时间序列项目实操,帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

76

2025.12.04

Python 数据清洗与预处理实战
Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术,包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换,结合 NumPy 高效处理大规模数据。通过实战案例,帮助学习者掌握 如何处理混乱、不完整数据,为后续数据分析与机器学习模型训练打下坚实基础。

12

2026.01.31

string转int
string转int

在编程中,我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算,或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

910

2023.08.02

if什么意思
if什么意思

if的意思是“如果”的条件。它是一个用于引导条件语句的关键词,用于根据特定条件的真假情况来执行不同的代码块。本专题提供if什么意思的相关文章,供大家免费阅读。

838

2023.08.22

pdf怎么转换成xml格式
pdf怎么转换成xml格式

将 pdf 转换为 xml 的方法:1. 使用在线转换器;2. 使用桌面软件(如 adobe acrobat、itext);3. 使用命令行工具(如 pdftoxml)。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

1937

2024.04.01

xml怎么变成word
xml怎么变成word

步骤:1. 导入 xml 文件;2. 选择 xml 结构;3. 映射 xml 元素到 word 元素;4. 生成 word 文档。提示:确保 xml 文件结构良好,并预览 word 文档以验证转换是否成功。想了解更多xml的相关内容,可以阅读本专题下面的文章。

2116

2024.08.01

xml是什么格式的文件
xml是什么格式的文件

xml是一种纯文本格式的文件。xml指的是可扩展标记语言,标准通用标记语言的子集,是一种用于标记电子文件使其具有结构性的标记语言。想了解更多相关的内容,可阅读本专题下面的相关文章。

1142

2024.11.28

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

658

2023.08.03

Golang 测试体系与代码质量保障:工程级可靠性建设
Golang 测试体系与代码质量保障:工程级可靠性建设

Go语言测试体系与代码质量保障聚焦于构建工程级可靠性系统。本专题深入解析Go的测试工具链(如go test)、单元测试、集成测试及端到端测试实践,结合代码覆盖率分析、静态代码扫描(如go vet)和动态分析工具,建立全链路质量监控机制。通过自动化测试框架、持续集成(CI)流水线配置及代码审查规范,实现测试用例管理、缺陷追踪与质量门禁控制,确保代码健壮性与可维护性,为高可靠性工程系统提供质量保障。

43

2026.02.28

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.5万人学习

Django 教程
Django 教程

共28课时 | 4.6万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.8万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号