Python中如何处理损坏的或不规范的XML文件

月夜之吻

发布时间：2026-01-14 20:14:02

391人浏览过

来源于php中文网

原创

python处理损坏xml的核心是容错解析、预处理清洗和降级提取：用lxml.recover=true自动修复语法错误；用正则清除bom、控制字符及未转义实体；严重破损时改用正则提取关键标签内容或模拟栈构建简易结构。

python中如何处理损坏的或不规范的xml文件

Python处理损坏或不规范的XML文件，核心思路是绕过严格解析、容忍错误、逐步修复或提取有效片段。标准库xml.etree.ElementTree对格式错误非常敏感，一遇到标签不闭合、编码异常、非法字符等就会抛出ParseError。更稳健的做法是结合容错型解析器、预处理和降级策略。

用lxml + recover=True自动修复常见语法错误

lxml比内置模块强大得多，其etree.XMLParser(recover=True)能跳过大部分语法错误（如未闭合标签、多余字符），尽力构建可用的树结构。

安装：pip install lxml
示例：即使XML缺少根标签或有孤立结束标签，也能恢复部分结构

代码片段：

from lxml import etree
<p>parser = etree.XMLParser(recover=True)
tree = etree.parse("broken.xml", parser)  # 不会崩溃
root = tree.getroot()</p><h1>即使原始文件有<item><name>A</item>这种错位，也能尝试修正

先清洗再解析：移除BOM、控制字符和乱码

很多“损坏”其实源于编码问题：UTF-8 BOM、Windows换行符混用、嵌入的\x00\x01等不可见控制字符，或HTML实体未转义（如&未写成&）。

读取时用errors='replace'或'ignore'避免解码失败
用正则清理常见干扰：re.sub(r'[\x00-\x08\x0b-\x0c\x0e-\x1f]', '', text)
将&（非&或<等）替换为&，防止解析中断

流式提取关键内容：不依赖完整XML结构

当XML严重破损、无法构建树时，放弃解析，改用字符串匹配或正则提取你需要的字段（适合日志、配置片段等场景）。

立即学习“Python免费学习笔记（深入）”；

例如提取所有<title>.*?</title>之间的文本，忽略是否嵌套合法
用re.findall()配合re.DOTALL标志处理跨行内容
注意：仅适用于结构相对固定、且你明确知道目标标签名的场景

降级为纯文本处理 + 手动构造简易结构

对于完全无法解析的文件（如混杂HTML/JSON/XML、大量缺失引号），可将其当作普通文本处理：

按行扫描，识别开头为<tag>或<code>的行，记录层级变化
用栈模拟简单嵌套，生成键值对或字典（类似轻量级SAX）
或直接用pandas.read_csv(..., sep='>', engine='python')等技巧粗略切分（视数据特征而定）

Python xmltodict unparse full_document 是否生成XML声明

XML文件转JSON Python脚本 xmltodict库快速转换

Python requests发送XML报文 post请求body传输XML

Python untangle库用法将XML转换为Python对象的简单库

Python xml.sax.ContentHandler 重写startElement解析标签

相关标签:

python html js json windows 编码 csv 栈 win 键值对标准库 json pandas pip xml 字符串栈 bom windows

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：XPath怎么选择包含特定class属性的节点 contains(@class, ‘value’) 下一篇：Node.js接收XML文件 Multer中间件如何配置

作者最新文章

jQuery读取XML文件示例前端使用jQuery.ajax解析XML

2026-02-28 11:46

c# 在多线程中处理 IProgress 更新UI

2026-02-28 11:50

PS如何快速建立蒙版？提高作图效率的PS蒙版实战技巧

2026-02-28 12:03

微信语音消息怎么转发给多人批量转发微信语音的方法【技巧】

2026-02-28 12:49

Excel怎么根据条件自动发邮件 Excel联动Outlook自动办公方法【指南】

2026-02-28 13:44

Chrome浏览器如何导出密码为CSV文件谷歌浏览器密码备份方法【迁移】

2026-02-28 13:48

Chrome怎么设置启动时打开特定网页浏览器启动页设置【方法】

2026-02-28 14:15

PDF怎么将扫描件转换成Word PDF OCR文字识别转换方法【工具】

2026-02-28 14:23

Win10/Win11永久激活备份方法，重装系统后怎么恢复激活状态？

2026-02-28 14:45

Chrome浏览器如何使用“覆盖”功能持久化修改本地代码【开发者】

2026-02-28 15:43

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章，帮助大家解决问题。

451

2023.08.07

json是什么

JSON是一种轻量级的数据交换格式，具有简洁、易读、跨平台和语言的特点，JSON数据是通过键值对的方式进行组织，其中键是字符串，值可以是字符串、数值、布尔值、数组、对象或者null，在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容，供大家免费下载体验。

546

2023.08.23

jquery怎么操作json

操作的方法有：1、“$.parseJSON(jsonString)”2、“$.getJSON(url, data, success)”；3、“$.each(obj, callback)”；4、“$.ajax()”。更多jquery怎么操作json的详细内容，可以访问本专题下面的文章。

326

2023.10.13

go语言处理json数据方法

本专题整合了go语言中处理json数据方法，阅读专题下面的文章了解更多详细内容。

2025.09.10

Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧，涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估，以及基于实际业务场景的时间序列项目实操，帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

2025.12.04

Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术，包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换，结合 NumPy 高效处理大规模数据。通过实战案例，帮助学习者掌握如何处理混乱、不完整数据，为后续数据分析与机器学习模型训练打下坚实基础。

2026.01.31

pip安装使用方法

安装步骤：1、确保Python已经正确安装在您的计算机上；2、下载“get-pip.py”脚本；3、按下Win + R键，然后输入cmd并按下Enter键来打开命令行窗口；4、在命令行窗口中，使用cd命令切换到“get-pip.py”所在的目录；5、执行安装命令；6、验证安装结果即可。大家可以访问本专题下的文章，了解pip安装使用方法的更多内容。

373

2023.10.09

更新pip版本

更新pip版本方法有使用pip自身更新、使用操作系统自带的包管理工具、使用python包管理工具、手动安装最新版本。想了解更多相关的内容，请阅读专题下面的文章。

430

2024.12.20

Golang 测试体系与代码质量保障：工程级可靠性建设

Go语言测试体系与代码质量保障聚焦于构建工程级可靠性系统。本专题深入解析Go的测试工具链（如go test）、单元测试、集成测试及端到端测试实践，结合代码覆盖率分析、静态代码扫描（如go vet）和动态分析工具，建立全链路质量监控机制。通过自动化测试框架、持续集成（CI）流水线配置及代码审查规范，实现测试用例管理、缺陷追踪与质量门禁控制，确保代码健壮性与可维护性，为高可靠性工程系统提供质量保障。

2026.02.28

热门下载

网站特效

网站源码

网站素材

前端模板