Python如何处理URL中的XML数据

畫卷琴夢

发布时间：2026-02-16 04:39:14

747人浏览过

来源于php中文网

原创

推荐用 requests 获取 xml 内容并手动解码，用 xml.etree.elementtree 解析；遇命名空间需传入字典并加前缀；须捕获 parseerror 并预清洗非法结构。

python如何处理url中的xml数据

用 `urllib.request` 或 `requests` 获取 URL 上的 XML 内容

XML 数据通常以纯文本形式暴露在 HTTP 响应体中，不是 JSON 那种结构化 API，所以第一步是可靠地拿到原始字符串。直接用 urllib.request.urlopen() 容易忽略编码和重定向问题；推荐用 requests，它默认处理 gzip、自动解码、支持会话复用。

如果服务器返回 Content-Type: application/xml 或 text/xml，response.text 一般能正确解码；但若响应头缺失或错误（比如只写 text/plain），得手动指定 response.content.decode("utf-8")
遇到中文乱码？先检查 response.encoding，再试 response.apparent_encoding，最后 fallback 到 chardet.detect(response.content)["encoding"]
别用 response.json() —— 这会抛 JSONDecodeError，XML 不是 JSON

import requests
<p>url = "<a href="https://www.php.cn/link/73693853a57a48e11cdea2a77e88a501">https://www.php.cn/link/73693853a57a48e11cdea2a77e88a501</a>"
response = requests.get(url, timeout=10)
response.raise_for_status()  # 抛出 4xx/5xx 错误
xml_content = response.content.decode(response.encoding or "utf-8")

用 `xml.etree.ElementTree` 解析并提取数据

xml.etree.ElementTree 是 Python 标准库中最轻量、最常用的选择，适合结构清晰、无 DTD/命名空间冲突的 XML。它不校验 schema，也不处理实体引用（如），遇到就报 ParseError。

用 ET.fromstring(xml_content) 直接解析字符串；若内容太大，改用 ET.parse(io.StringIO(xml_content)) 或流式读取文件
路径表达式（XPath）支持有限：只支持 //tag、tag/sub、.[@attr="val"]，不支持 namespace:tag（除非手动注册命名空间）
获取属性值用 elem.get("attr_name")，不是 elem["attr_name"]；获取文本用 elem.text.strip()，注意前后空白和换行

import xml.etree.ElementTree as ET
<p>root = ET.fromstring(xml_content)
titles = [item.find("title").text.strip() for item in root.findall(".//item") if item.find("title") is not None]

处理带命名空间的 XML（如 Atom、RSS、SOAP）

很多公开 XML 接口（如 GitHub Atom feed、气象局 SOAP 服务）使用命名空间，例如 <feed xmlns="http://www.w3.org/2005/Atom"></feed>。不处理命名空间会导致 find() 返回 None，即使标签存在。

通吃客零食网整站 for Shopex

第一步】：将安装包中所有的文件夹和文件用ftp工具以二进制方式上传至服务器空间;(如果您不知如何设置ftp工具的二进制方式，可以查看：(http://www.shopex.cn/support/qa/setup.help.717.html)【第二步】：在浏览器中输入 http://您的商店域名/install 进行安装界面进行安装即可。【第二步】：登录后台，工具箱里恢复数据管理后台是url/sho

下载

必须显式传入命名空间字典，键是前缀（可自定义），值是 URI；例如 {"a": "http://www.w3.org/2005/Atom"}
所有 XPath 中的标签都要加前缀：a:title、a:entry，不能省略
如果不知道命名空间 URI，先打印 root.tag —— 它通常是 {http://...}feed 这种格式，花括号里就是 URI

ns = {"a": "http://www.w3.org/2005/Atom"}
entries = root.findall("a:entry", ns)
for entry in entries:
    title_elem = entry.find("a:title", ns)
    if title_elem is not None:
        print(title_elem.text.strip())

遇到 malformed XML 或外部实体时怎么办

真实场景中常遇到：XML 声明缺失、编码声明错误、含未定义实体（©）、DOCTYPE 引用远程 DTD（引发 XXE 漏洞）。标准 ElementTree 默认禁用外部实体，但依然可能因格式错乱崩溃。

立即学习“Python免费学习笔记（深入）”；

永远用 try/except ET.ParseError 包裹解析逻辑，不要假设输入合法
拒绝处理含 DOCTYPE 的 XML，除非你明确控制数据源；可用正则预清洗：re.sub(r"^>]*>", "", xml_content)
需要健壮解析（如 HTML 混合 XML、标签不闭合）？换 lxml 库，它自带修复模式：from lxml import etree; doc = etree.fromstring(xml_content, parser=etree.XMLParser(recover=True))

实际跑通的关键往往不在“怎么解析”，而在“怎么让原始字符串进得来、不出错、不被截断”。网络请求的编码协商、命名空间的显式声明、以及对非法结构的防御性清洗，这三步漏掉任何一环，ET.fromstring() 就会静默失败或抛出难以定位的异常。

Python xml.etree iterfind 迭代查找特定标签的用法

Python解析XML命名空间 findall方法匹配带ns的标签

Python xml.etree.ElementTree教程标准库ET模块增删改查

Python lxml etree.tostring encoding 生成带编码声明的XML字节流

XML文件转Protobuf schema工具根据XML生成proto定义

相关标签:

python json 命名空间 try xml 字符串接口 Namespace copy github http atom

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：XML文件如何引用本地DTD 解决DOCTYPE引用外部文件报错下一篇：暂无

作者最新文章

Chrome浏览器如何开启“阅读清单”功能谷歌浏览器稍后读列表【收藏】

2026-02-13 17:04

通义千问帮你读财报，普通人也能看懂上市公司业绩

2026-02-13 17:06

彻底禁用Windows Update更新程序：Win11系统强制禁更全攻略

2026-02-13 17:12

Edge浏览器图片搜索功能怎么用网页右键搜图指南【指南】

2026-02-13 17:16

凌晨能提交12306候补订单吗？铁路官方候补系统开放时间详解

2026-02-13 17:21

B站网页版怎么看视频实时在线人数？浏览器端快捷查看路径

2026-02-13 17:22

怎么永久关闭Windows11更新？不再被系统自动重启更新所困扰

2026-02-13 17:24

高德地图怎么报错修改高德地图反馈道路信息错误方法【教程】

2026-02-13 17:26

高德地图怎么同步手表导航高德地图连接智能手表提醒方法【技巧】

2026-02-13 17:32

高德地图怎么注销账号高德地图账号永久注销注销方法【指南】

2026-02-13 17:36

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

AI 图片处理图片拼接

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章，帮助大家解决问题。

441

2023.08.07

json是什么

JSON是一种轻量级的数据交换格式，具有简洁、易读、跨平台和语言的特点，JSON数据是通过键值对的方式进行组织，其中键是字符串，值可以是字符串、数值、布尔值、数组、对象或者null，在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容，供大家免费下载体验。

544

2023.08.23