如何用Python Pandas处理XML并映射到DataFrame？

月夜之吻

发布时间：2026-03-02 11:00:23

463人浏览过

来源于php中文网

原创

pandas.read_xml()仅支持极简xml结构，遇嵌套、命名空间等必失败；应改用xml.etree.elementtree或lxml手动解析后构建dataframe。

如何用python pandas处理xml并映射到dataframe？

直接用 `pandas.read_xml()` 会失败，除非 XML 结构极简单

新版 Pandas（1.3+）确实加了 read_xml()，但它对 XML 的容忍度很低：只支持扁平、无嵌套、无命名空间、无重复同名子节点的结构。一旦遇到 <person><name>Alice</name><address><city>Beijing</city></address></person> 这类嵌套，它要么报错 ValueError: Unstacked DataFrame is not supported，要么把整个 <address></address> 当成字符串塞进一列，丢失内部结构。

真正可靠的做法是绕过 read_xml()，用标准库 xml.etree.ElementTree 或第三方 lxml 手动解析，再按需构造字典列表，最后喂给 pd.DataFrame()。

用 `xml.etree.ElementTree` 提取嵌套字段并展平

这是最轻量、无需额外安装的方案。关键在递归遍历或用 .findall() 定位重复节点，再用 .text 或 .get() 取值。注意空值、类型转换和重复标签处理。

用 root.findall('record') 获取所有顶层记录节点（别用 findall('.//record')，性能差且易误匹配）
对每个 record，用 elem.find('name') 取子元素，.text 获取文本，.get('id') 取属性
嵌套字段如 <address><city>Shanghai</city></address>，需两级调用：record.find('address').find('city').text if record.find('address') is not None else None
避免直接用 record.findtext('name') —— 它返回 None 时无法区分“没找到”和“值为空字符串”

import xml.etree.ElementTree as ET
import pandas as pd

xml_str = """<data>
  <record id="1">
    <name>Alice</name>
    <age>30</age>
    <address><city>Beijing</city><zip>100000</zip></address>
  </record>
  <record id="2">
    <name>Bob</name>
    <age>25</age>
    <address><city>Shanghai</city><zip>200000</zip></address>
  </record>
</data>"""

root = ET.fromstring(xml_str)
records = []

for record in root.findall('record'):
    city_elem = record.find('address').find('city') if record.find('address') is not None else None
    zip_elem = record.find('address').find('zip') if record.find('address') is not None else None
    
    records.append({
        'id': record.get('id'),
        'name': record.find('name').text if record.find('name') is not None else None,
        'age': int(record.find('age').text) if record.find('age') is not None else None,
        'city': city_elem.text if city_elem is not None else None,
        'zip': zip_elem.text if zip_elem is not None else None
    })

df = pd.DataFrame(records)

用 `lxml` 和 XPath 处理带命名空间或复杂路径的 XML

当 XML 含命名空间（如 xmlns="http://example.com/ns"）或需要模糊匹配（如 //item[@type='user']），xml.etree.ElementTree 的 XPath 支持太弱，必须换 lxml。它支持完整 XPath 1.0，且性能更好。

Penpot

Penpot是一个开源的设计和原型制作平台，旨在成为一个全功能的UI/UX设计工具。

下载

立即学习“Python免费学习笔记（深入）”；

注册命名空间：用 namespaces={'ns': 'http://example.com/ns'}，然后在 XPath 中写 ns:record
用 tree.xpath('//record') 替代 findall()，支持更灵活的条件筛选
tree.xpath('string(./name)') 可安全取文本，自动处理缺失节点（返回空字符串）
注意 lxml 默认不校验 XML，若数据不可信，加 parser = etree.XMLParser(recover=True)

from lxml import etree
import pandas as pd

xml_str = '''<?xml version="1.0"?>
<root xmlns="http://example.com/ns">
  <record><name>Charlie</name></record>
</root>'''

parser = etree.XMLParser()
tree = etree.fromstring(xml_str, parser)
namespaces = {'ns': 'http://example.com/ns'}

records = []
for record in tree.xpath('//ns:record', namespaces=namespaces):
    records.append({
        'name': record.xpath('string(ns:name)', namespaces=namespaces).strip() or None
    })

df = pd.DataFrame(records)

性能与内存：大文件别一次性加载到内存

XML 文件超过 10MB 时，ET.fromstring() 或 etree.parse() 会吃光内存。此时必须用流式解析（iterparse() 或 lxml.etree.iterparse()），边读边建行，及时清理已处理节点。

iterparse() 返回 (event, elem) 元组，监听 'start' 或 'end' 事件
遇到 'end' 且 elem.tag == 'record' 时，提取数据并调用 elem.clear() 释放内存
不要在循环里反复调用 root.findall() —— 它每次都会重新遍历整棵树
如果只是提取固定字段，用 SAX 解析器（xml.sax）更省内存，但编码复杂度上升

嵌套层级深、含命名空间、字段类型不一致、文件体积大——这些不是边缘情况，而是真实 XML 数据的常态。手动解析看似多写几行，实则省去调试 read_xml() 报错的时间，也避开了隐式类型转换带来的陷阱。

Python xml.etree.ElementTree findall namespace 带命名空间查找

Python xml.dom.pulldom教程处理超大XML文件的内存优化方案

Python生成XML响应头设置Content-Type为application/xml

Python defusedxml安全解析防止Python解析XML时被攻击

XML文件如何通过WebDAV上传 Python requests上传XML

相关专题

Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧，涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估，以及基于实际业务场景的时间序列项目实操，帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

2025.12.04

Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术，包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换，结合 NumPy 高效处理大规模数据。通过实战案例，帮助学习者掌握如何处理混乱、不完整数据，为后续数据分析与机器学习模型训练打下坚实基础。

2026.01.31

string转int

在编程中，我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算，或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

910

2023.08.02

if什么意思

if的意思是“如果”的条件。它是一个用于引导条件语句的关键词，用于根据特定条件的真假情况来执行不同的代码块。本专题提供if什么意思的相关文章，供大家免费阅读。

838

2023.08.22

pdf怎么转换成xml格式

将 pdf 转换为 xml 的方法：1. 使用在线转换器；2. 使用桌面软件（如 adobe acrobat、itext）；3. 使用命令行工具（如 pdftoxml）。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

1937

2024.04.01

xml怎么变成word

步骤：1. 导入 xml 文件；2. 选择 xml 结构；3. 映射 xml 元素到 word 元素；4. 生成 word 文档。提示：确保 xml 文件结构良好，并预览 word 文档以验证转换是否成功。想了解更多xml的相关内容，可以阅读本专题下面的文章。

2116

2024.08.01

xml是什么格式的文件

xml是一种纯文本格式的文件。xml指的是可扩展标记语言，标准通用标记语言的子集，是一种用于标记电子文件使其具有结构性的标记语言。想了解更多相关的内容，可阅读本专题下面的相关文章。

1142

2024.11.28

js 字符串转数组

js字符串转数组的方法：1、使用“split()”方法；2、使用“Array.from()”方法；3、使用for循环遍历；4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容，供大家免费下载体验。

658

2023.08.03

Golang 测试体系与代码质量保障：工程级可靠性建设

Go语言测试体系与代码质量保障聚焦于构建工程级可靠性系统。本专题深入解析Go的测试工具链（如go test）、单元测试、集成测试及端到端测试实践，结合代码覆盖率分析、静态代码扫描（如go vet）和动态分析工具，建立全链路质量监控机制。通过自动化测试框架、持续集成（CI）流水线配置及代码审查规范，实现测试用例管理、缺陷追踪与质量门禁控制，确保代码健壮性与可维护性，为高可靠性工程系统提供质量保障。

2026.02.28

热门下载

网站特效

网站源码

网站素材

前端模板