如何使用Python ElementTree提取XML属性并收集到列表中

霞舞

发布时间：2025-10-11 13:47:11

395人浏览过

来源于php中文网

原创

如何使用Python ElementTree提取XML属性并收集到列表中

本教程详细介绍了如何利用python的`xml.etree.elementtree`模块解析xml文件，并高效地从特定xml元素中提取其所有属性字典，然后将这些属性字典收集到一个python列表中。通过具体的代码示例，读者将学习如何遍历xml结构、访问元素属性，并采用列表的`append`方法实现数据的有效聚合。

使用Python ElementTree解析XML并收集属性

在处理XML数据时，经常需要从特定的XML标签中提取其属性信息，并将其组织成更易于编程处理的数据结构，例如Python列表。xml.etree.ElementTree是Python标准库中一个强大且易于使用的模块，用于解析和操作XML数据。本教程将指导您如何利用该模块，将XML元素的属性集合到一个列表中。

1. 导入ElementTree模块并加载XML文件

首先，我们需要导入xml.etree.ElementTree模块，并加载目标XML文件。加载XML文件通常通过ET.parse()函数完成，它会返回一个ElementTree对象，代表整个XML文档。

import xml.etree.ElementTree as ET
import os # 引入os模块用于路径处理

# 定义XML文件路径
# 注意：在实际应用中，请替换为您的XML文件实际路径
xml_file_path = 'C:\Users\dd00849401\Desktop\xml\m_DM_DIM_NRC_CUSTOMER.xml'

# 检查文件是否存在，提高健壮性
if not os.path.exists(xml_file_path):
    raise FileNotFoundError(f"XML文件未找到: {xml_file_path}")

try:
    tree = ET.parse(xml_file_path)
    root = tree.getroot() # 获取XML文档的根元素
    print(f"XML文件 '{xml_file_path}' 解析成功。")
except ET.ParseError as e:
    raise SyntaxError(f"XML文件解析失败，请检查文件格式: {e}")

2. 遍历XML元素并提取属性

XML文档通常具有层级结构。为了提取特定元素的属性，我们需要遍历XML树。ElementTree提供了iter()方法，可以递归地遍历当前元素及其所有子孙元素。

假设我们的XML结构如下（简化示例）：

立即学习“Python免费学习笔记（深入）”；

<ROOT>
    <SOURCE NAME="SourceA">
        <SOURCEFIELD BUSINESSNAME="" DATATYPE="varchar" DESCRIPTION="" FIELDNUMBER="1"/>
        <SOURCEFIELD BUSINESSNAME="" DATATYPE="numeric" DESCRIPTION="" FIELDNUMBER="2"/>
    </SOURCE>
    <SOURCE NAME="SourceB">
        <SOURCEFIELD BUSINESSNAME="" DATATYPE="timestamp" DESCRIPTION="" FIELDNUMBER="3"/>
    </SOURCE>
</ROOT>

我们希望收集所有SOURCEFIELD元素的属性。

小微助手

微信推出的一款专注于提升桌面效率的助手型AI工具

下载

# 初始化一个空列表，用于存储所有SOURCEFIELD的属性字典
sourcefields_attributes_list = []

print("
--- 开始提取SOURCEFIELD属性 ---")

# 遍历所有'SOURCE'元素
for source in root.iter('SOURCE'):
    sourcename = source.attrib.get('NAME', '未知来源') # 使用.get()方法安全获取属性
    print(f"
处理来源: {sourcename}")
    print(f"来源 '{sourcename}' 的详细属性: {source.attrib}")
    print(f"来源 '{sourcename}' 的字段属性:")

    # 在每个'SOURCE'元素内部，遍历其所有的'SOURCEFIELD'子元素
    for sourcefield in source.iter("SOURCEFIELD"):
        # sourcefield.attrib 返回一个字典，包含该元素的所有属性
        field_attributes = sourcefield.attrib
        print(f"  - 字段属性: {field_attributes}")
        # 将当前SOURCEFIELD的属性字典添加到列表中
        sourcefields_attributes_list.append(field_attributes)

print("
--- 属性提取完成 ---")

3. 查看收集到的属性列表

经过上述遍历和添加操作，sourcefields_attributes_list现在就包含了所有目标元素的属性字典。

print("
所有收集到的SOURCEFIELD属性列表:")
# 为了更好地展示，可以遍历打印列表中的每个字典
for item in sourcefields_attributes_list:
    print(item)

# 或者直接打印整个列表
# print(sourcefields_attributes_list)

预期的输出格式将是：

[{'BUSINESSNAME': '', 'DATATYPE': 'varchar', 'DESCRIPTION': '', 'FIELDNUMBER': '1'},
 {'BUSINESSNAME': '', 'DATATYPE': 'numeric', 'DESCRIPTION': '', 'FIELDNUMBER': '2'},
 {'BUSINESSNAME': '', 'DATATYPE': 'timestamp', 'DESCRIPTION': '', 'FIELDNUMBER': '3'}]

4. 完整示例代码

为了方便读者理解和实践，以下是整合后的完整代码示例：

import xml.etree.ElementTree as ET
import os

# 定义XML文件路径
xml_file_path = 'C:\Users\dd00849401\Desktop\xml\m_DM_DIM_NRC_CUSTOMER.xml'

# --- 1. 文件加载与错误处理 ---
if not os.path.exists(xml_file_path):
    raise FileNotFoundError(f"错误：XML文件未找到，请检查路径：{xml_file_path}")

try:
    tree = ET.parse(xml_file_path)
    root = tree.getroot()
    print(f"成功解析XML文件：'{xml_file_path}'")
except ET.ParseError as e:
    raise SyntaxError(f"错误：XML文件解析失败，请检查文件格式或内容：{e}")

# --- 2. 属性提取与收集 ---
sourcefields_attributes_list = [] # 初始化空列表，用于存储所有SOURCEFIELD的属性

print("
--- 开始遍历并提取SOURCEFIELD属性 ---")
for source in root.iter('SOURCE'): # 遍历所有'SOURCE'标签
    sourcename = source.attrib.get('NAME', '未知来源') # 安全获取'NAME'属性，若不存在则为'未知来源'
    print(f"
当前处理的SOURCE名称: {sourcename}")
    print(f"SOURCE '{sourcename}' 的所有属性: {source.attrib}")
    print(f"SOURCE '{sourcename}' 下的SOURCEFIELD属性:")

    for sourcefield in source.iter("SOURCEFIELD"): # 遍历当前'SOURCE'下的所有'SOURCEFIELD'标签
        field_attribs = sourcefield.attrib # 获取SOURCEFIELD的所有属性，这是一个字典
        print(f"  - 提取到字段属性: {field_attribs}")
        sourcefields_attributes_list.append(field_attribs) # 将属性字典添加到列表中

print("
--- 属性提取完成 ---")

# --- 3. 打印结果 ---
print("
最终收集到的所有SOURCEFIELD属性列表:")
if sourcefields_attributes_list:
    for i, attrs in enumerate(sourcefields_attributes_list):
        print(f"  [{i+1}] {attrs}")
else:
    print("未找到任何SOURCEFIELD属性。")

注意事项与最佳实践

文件路径验证： 在实际应用中，务必检查文件路径的有效性。使用os.path.exists()可以避免因文件不存在而导致的运行时错误。
错误处理： ET.parse()在遇到格式不正确的XML文件时会抛出ET.ParseError。使用try-except块捕获此异常可以使程序更加健壮。
属性访问： 访问元素属性时，推荐使用element.attrib.get('attribute_name', default_value)而不是element.attrib['attribute_name']。get()方法可以在属性不存在时返回一个默认值，避免KeyError。
列表初始化位置： 确保用于收集属性的列表在循环外部初始化（sourcefields_attributes_list = []），这样每次循环迭代时，新的属性字典都会被添加到同一个列表中，而不是每次循环都创建一个新的空列表。
XML结构理解： 在编写解析代码之前，清晰地了解XML文档的结构至关重要。这有助于确定正确的标签名称进行迭代和属性提取。
内存效率： 对于非常大的XML文件，ElementTree的iterparse功能提供了更内存高效的解析方式，因为它允许您在解析过程中处理元素，而无需将整个文档加载到内存中。但对于本教程所示的场景，parse和iter通常足够。

总结

通过本教程，您已经掌握了如何使用Python的xml.etree.ElementTree模块来解析XML文件，并通过迭代器iter()遍历特定元素，最终将其属性字典高效地收集到一个Python列表中。这种方法在处理结构化XML数据时非常实用，可以将XML数据转换为Python程序易于操作的数据结构，为后续的数据分析和处理奠定基础。

如何在 PyTorch 中高效实现张量的一对多映射求和（无显式循环）

Python组合怎么生成_itertools.combinations与数学组合

如何高效向量化滑动窗口共现矩阵计算（摆脱三重嵌套循环）

Python怎么读取图片尺寸_Pillow(PIL)库Image.open属性

Python Tkinter打包成exe怎么做_PyInstaller打包GUI应用隐藏控制台黑框(-w参数)

相关专题

pdf怎么转换成xml格式

将 pdf 转换为 xml 的方法：1. 使用在线转换器；2. 使用桌面软件（如 adobe acrobat、itext）；3. 使用命令行工具（如 pdftoxml）。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

1949

2024.04.01

xml怎么变成word

步骤：1. 导入 xml 文件；2. 选择 xml 结构；3. 映射 xml 元素到 word 元素；4. 生成 word 文档。提示：确保 xml 文件结构良好，并预览 word 文档以验证转换是否成功。想了解更多xml的相关内容，可以阅读本专题下面的文章。

2119

2024.08.01

xml是什么格式的文件

xml是一种纯文本格式的文件。xml指的是可扩展标记语言，标准通用标记语言的子集，是一种用于标记电子文件使其具有结构性的标记语言。想了解更多相关的内容，可阅读本专题下面的相关文章。

1172

2024.11.28

treenode的用法

在计算机编程领域，TreeNode是一种常见的数据结构，通常用于构建树形结构。在不同的编程语言中，TreeNode可能有不同的实现方式和用法，通常用于表示树的节点信息。更多关于treenode相关问题详情请看本专题下面的文章。php中文网欢迎大家前来学习。

550

2023.12.01

C++ 高效算法与数据结构

本专题讲解 C++ 中常用算法与数据结构的实现与优化，涵盖排序算法（快速排序、归并排序）、查找算法、图算法、动态规划、贪心算法等，并结合实际案例分析如何选择最优算法来提高程序效率。通过深入理解数据结构（链表、树、堆、哈希表等），帮助开发者提升在复杂应用中的算法设计与性能优化能力。

2025.12.22

深入理解算法：高效算法与数据结构专题

本专题专注于算法与数据结构的核心概念，适合想深入理解并提升编程能力的开发者。专题内容包括常见数据结构的实现与应用，如数组、链表、栈、队列、哈希表、树、图等；以及高效的排序算法、搜索算法、动态规划等经典算法。通过详细的讲解与复杂度分析，帮助开发者不仅能熟练运用这些基础知识，还能在实际编程中优化性能，提高代码的执行效率。本专题适合准备面试的开发者，也适合希望提高算法思维的编程爱好者。

2026.01.06